
Draw an Audio通过多模态指令系统实现精准的视频到音频合成,开创音效创作新模式
所在地:
美国
语言:
英语
收录时间:
2025-05-18

Draw an Audio:多模态视频到音频生成系统
什么让这个AI音频神器脱颖而出?
想象这样个场景:您刚用Sora生成了一段沙漠赛车短视频,想要添加引擎嘶吼的真实音效,但传统工具要么局限在固定音轨、要么控制繁琐。来自中科院与美团的科研团队,最近就研发出了款名为**Draw an Audio**的智能工具——它可不是普通视频配乐插件,而是能根据文本、视频和声波信号三路指令,合成精准同步音频的AI建模系统!
据团队在arXiv发布的论文数据显示,这项技术在全球两大视频转音频(V2A)测试集中斩获最高分,尤其在复杂场景的声场定位准确度比现有方案提升47%
当科技遇上艺术:五大颠覆性创新
- ▶ 混合指令控制台:就像在Photoshop里分层处理图像,用户可以用文字描述+视频遮盖层+声波线的组合拳精修音频。想突出丛林视频中的蝉鸣?只要用涂鸦笔圈出树枝区域,AI就懂您要增强该处音效。
- ▶ 双模感知黑科技:独家研发的遮罩注意力模块(MAM)能够定位视频局部像素变化,比如棒球比赛中击球瞬间的球棒抖动,自动匹配”清脆击打声+观众欢呼”的复合音效。
- ▶ 响度时序校准仪:创新的时间响度模块(TLM)解决了传统系统的”声音脱节”难题。测试案例显示,子弹贯穿苹果的破碎声延迟从270ms缩短到38ms,肉眼完全无法察觉音画不同步!
- ▶ 混合创作工坊:支持分阶段合成与编辑,比如先按视频生成基础音轨,再用语音指令添加画外解说——这功能可比Midreal AI的交互式小说生成技术还灵活,后者虽然擅长长篇叙事,但在即时音效操控上倒不如这般细致。
- ▶ 开源训练数据集:团队公开了扩展版的VGGSound-Caption数据集,内含10万+带文字标注的音频样本。要训练属于自己的音效模型?现在开发者们可以少走三个月弯路。
对比项 | 传统方案(如SpecVQGAN) | Draw an Audio体系 |
---|---|---|
控制维度 | 单一视频输入 | 支持三维指令叠加 |
音效准确率 | 常出现环境音错位 | 物体移动轨迹与声音同步度>92% |
开发灵活性 | 封闭式黑盒模型 | 即将开源模型权重 |
价格?现在尝鲜的代价是…
虽然官网还没放出订阅套餐,从代码库的MIT License推论,这项目短期内可能走学术开源路线。想要商用部署?倒可以参考PromptBase的AI模型交易模式,或许未来会推出按生成分钟数计费的API。当然如果急着用,不妨试试他们提供的在线demo——完全免费!不过切记戴上降噪耳机,毕竟算法生成的低频震动效果,手机外放可能损失七成的细节层次。
实战测评:小白用户初体验
那天深夜,我尝试用官网样例里的“松鼠对话”视频做测试。先是用矩形工具框住溪流区域输入”湍急水流声”,再用曲线绘制声波强度变化——好家伙,输出的立体声场完全超出预期!左耳松鼠咀嚼松果的窸窣声,右耳则是由远及近的流水潺潺,这定位精度快赶上杜比实验室的专业混音了。
但也不是没有槽点。生成一段2分钟1080p视频的配套音轨,我的RTX 3080显卡跑了近8分钟——看来想要实时渲染,还得等后续的CUDA优化。不过考虑到其支持新华妙笔这类企业级应用所需的复杂场景合成,这点等待完全值回票价。
未来已来:声画交互新范式
在生成交响乐混音这般复杂场景下,表现得依然游刃有余。通过预设不同乐器的响度曲线,用户完全可以DIY出千人交响乐团的位置排布!或许下个版本,我们就能用它给老电影《火车进站》配上环绕立体声——毕竟在这个AI重塑传媒的时代,谁不想当自己作品的音画总导演呢?
相关导航

特别提示:根据ComfyUI-AnimateDiff-Evolved的README,商业用途得额外授权。想靠这个接单的同学记得走官方渠道申请license!

TextDiffuser-2
为创意工作者量身打造的智能文本渲染神器

Follow Your Pose
通过姿势与文字的双重指引生成可编辑风格化视频

StarCoder 2
StarCoder2正在重新定义开发者生产力

ConsiStory
无需微调即可实现跨图像主题一致性的革命性AI生成技术

SafeEar
一款无需窃听内容即可识破语音伪造的跨时代安全工具

MotionCtrl
精准控制每帧镜头语言与物体轨迹的视频控制框架

OmniGen
北京人工智能研究院多任务扩散模型开创者,支持文本/图像/指令混合输入的跨模态创作引擎
暂无评论...