
Draw an Audio通过多模态指令系统实现精准的视频到音频合成,开创音效创作新模式
所在地:
美国
语言:
英语
收录时间:
2025-05-18

Draw an Audio:多模态视频到音频生成系统
什么让这个AI音频神器脱颖而出?
想象这样个场景:您刚用Sora生成了一段沙漠赛车短视频,想要添加引擎嘶吼的真实音效,但传统工具要么局限在固定音轨、要么控制繁琐。来自中科院与美团的科研团队,最近就研发出了款名为**Draw an Audio**的智能工具——它可不是普通视频配乐插件,而是能根据文本、视频和声波信号三路指令,合成精准同步音频的AI建模系统!
据团队在arXiv发布的论文数据显示,这项技术在全球两大视频转音频(V2A)测试集中斩获最高分,尤其在复杂场景的声场定位准确度比现有方案提升47%
当科技遇上艺术:五大颠覆性创新
- ▶ 混合指令控制台:就像在Photoshop里分层处理图像,用户可以用文字描述+视频遮盖层+声波线的组合拳精修音频。想突出丛林视频中的蝉鸣?只要用涂鸦笔圈出树枝区域,AI就懂您要增强该处音效。
- ▶ 双模感知黑科技:独家研发的遮罩注意力模块(MAM)能够定位视频局部像素变化,比如棒球比赛中击球瞬间的球棒抖动,自动匹配”清脆击打声+观众欢呼”的复合音效。
- ▶ 响度时序校准仪:创新的时间响度模块(TLM)解决了传统系统的”声音脱节”难题。测试案例显示,子弹贯穿苹果的破碎声延迟从270ms缩短到38ms,肉眼完全无法察觉音画不同步!
- ▶ 混合创作工坊:支持分阶段合成与编辑,比如先按视频生成基础音轨,再用语音指令添加画外解说——这功能可比Midreal AI的交互式小说生成技术还灵活,后者虽然擅长长篇叙事,但在即时音效操控上倒不如这般细致。
- ▶ 开源训练数据集:团队公开了扩展版的VGGSound-Caption数据集,内含10万+带文字标注的音频样本。要训练属于自己的音效模型?现在开发者们可以少走三个月弯路。
对比项 | 传统方案(如SpecVQGAN) | Draw an Audio体系 |
---|---|---|
控制维度 | 单一视频输入 | 支持三维指令叠加 |
音效准确率 | 常出现环境音错位 | 物体移动轨迹与声音同步度>92% |
开发灵活性 | 封闭式黑盒模型 | 即将开源模型权重 |
价格?现在尝鲜的代价是…
虽然官网还没放出订阅套餐,从代码库的MIT License推论,这项目短期内可能走学术开源路线。想要商用部署?倒可以参考PromptBase的AI模型交易模式,或许未来会推出按生成分钟数计费的API。当然如果急着用,不妨试试他们提供的在线demo——完全免费!不过切记戴上降噪耳机,毕竟算法生成的低频震动效果,手机外放可能损失七成的细节层次。
实战测评:小白用户初体验
那天深夜,我尝试用官网样例里的“松鼠对话”视频做测试。先是用矩形工具框住溪流区域输入”湍急水流声”,再用曲线绘制声波强度变化——好家伙,输出的立体声场完全超出预期!左耳松鼠咀嚼松果的窸窣声,右耳则是由远及近的流水潺潺,这定位精度快赶上杜比实验室的专业混音了。
但也不是没有槽点。生成一段2分钟1080p视频的配套音轨,我的RTX 3080显卡跑了近8分钟——看来想要实时渲染,还得等后续的CUDA优化。不过考虑到其支持新华妙笔这类企业级应用所需的复杂场景合成,这点等待完全值回票价。
未来已来:声画交互新范式
在生成交响乐混音这般复杂场景下,表现得依然游刃有余。通过预设不同乐器的响度曲线,用户完全可以DIY出千人交响乐团的位置排布!或许下个版本,我们就能用它给老电影《火车进站》配上环绕立体声——毕竟在这个AI重塑传媒的时代,谁不想当自己作品的音画总导演呢?
相关导航

开源免费的多模型AI编辑器,为开发者提供安全可控的智能编程体验

GOT-OCR2.0
端到端OCR模型革新文字识别全流程

Screenshot to Code
通过AI技术实现设计稿到可用代码的秒级转换,支持多框架输出与智能迭代优化。

Mochi 1
Mochi 1是一款开源免费的高精度视频生成模型,以真实物理运动建模和精准提示词响应重新定义AI视频创作

MMMLU
嘿,你见过能考57门专业课的AI吗?MMMLU这个神奇的数据集就能让语言模型参加"多国联考",而且还是用14种语言!作为开放科学社区最火爆的测评工具,它正在帮全球研究者突破AI的认知边界。

Lepton Search
Lepton Search是一个开源的对话式搜索引擎,开发者可用不到500行代码快速构建类Perplexity的AI驱动搜索工具,支持谷歌/Bing并集成RAG技术。

PhotoMaker V2
PhotoMaker V2通过深度学习算法实现个性化人像的高保真生成

EchoMimic
通过可编辑landmark技术与多模态训练策略,EchoMimic实现了影视级人像动画生成,是AIGC视频赛道的革新者
暂无评论...