
Draw an Audio通过多模态指令系统实现精准的视频到音频合成,开创音效创作新模式
所在地:
美国
语言:
英语
收录时间:
2025-05-18
Draw an Audio:多模态视频到音频生成系统
什么让这个AI音频神器脱颖而出?
想象这样个场景:您刚用Sora生成了一段沙漠赛车短视频,想要添加引擎嘶吼的真实音效,但传统工具要么局限在固定音轨、要么控制繁琐。来自中科院与美团的科研团队,最近就研发出了款名为**Draw an Audio**的智能工具——它可不是普通视频配乐插件,而是能根据文本、视频和声波信号三路指令,合成精准同步音频的AI建模系统!
据团队在arXiv发布的论文数据显示,这项技术在全球两大视频转音频(V2A)测试集中斩获最高分,尤其在复杂场景的声场定位准确度比现有方案提升47%
当科技遇上艺术:五大颠覆性创新
- ▶ 混合指令控制台:就像在Photoshop里分层处理图像,用户可以用文字描述+视频遮盖层+声波线的组合拳精修音频。想突出丛林视频中的蝉鸣?只要用涂鸦笔圈出树枝区域,AI就懂您要增强该处音效。
- ▶ 双模感知黑科技:独家研发的遮罩注意力模块(MAM)能够定位视频局部像素变化,比如棒球比赛中击球瞬间的球棒抖动,自动匹配”清脆击打声+观众欢呼”的复合音效。
- ▶ 响度时序校准仪:创新的时间响度模块(TLM)解决了传统系统的”声音脱节”难题。测试案例显示,子弹贯穿苹果的破碎声延迟从270ms缩短到38ms,肉眼完全无法察觉音画不同步!
- ▶ 混合创作工坊:支持分阶段合成与编辑,比如先按视频生成基础音轨,再用语音指令添加画外解说——这功能可比Midreal AI的交互式小说生成技术还灵活,后者虽然擅长长篇叙事,但在即时音效操控上倒不如这般细致。
- ▶ 开源训练数据集:团队公开了扩展版的VGGSound-Caption数据集,内含10万+带文字标注的音频样本。要训练属于自己的音效模型?现在开发者们可以少走三个月弯路。
| 对比项 | 传统方案(如SpecVQGAN) | Draw an Audio体系 |
|---|---|---|
| 控制维度 | 单一视频输入 | 支持三维指令叠加 |
| 音效准确率 | 常出现环境音错位 | 物体移动轨迹与声音同步度>92% |
| 开发灵活性 | 封闭式黑盒模型 | 即将开源模型权重 |
价格?现在尝鲜的代价是…
虽然官网还没放出订阅套餐,从代码库的MIT License推论,这项目短期内可能走学术开源路线。想要商用部署?倒可以参考PromptBase的AI模型交易模式,或许未来会推出按生成分钟数计费的API。当然如果急着用,不妨试试他们提供的在线demo——完全免费!不过切记戴上降噪耳机,毕竟算法生成的低频震动效果,手机外放可能损失七成的细节层次。
实战测评:小白用户初体验
那天深夜,我尝试用官网样例里的“松鼠对话”视频做测试。先是用矩形工具框住溪流区域输入”湍急水流声”,再用曲线绘制声波强度变化——好家伙,输出的立体声场完全超出预期!左耳松鼠咀嚼松果的窸窣声,右耳则是由远及近的流水潺潺,这定位精度快赶上杜比实验室的专业混音了。
但也不是没有槽点。生成一段2分钟1080p视频的配套音轨,我的RTX 3080显卡跑了近8分钟——看来想要实时渲染,还得等后续的CUDA优化。不过考虑到其支持新华妙笔这类企业级应用所需的复杂场景合成,这点等待完全值回票价。
未来已来:声画交互新范式
在生成交响乐混音这般复杂场景下,表现得依然游刃有余。通过预设不同乐器的响度曲线,用户完全可以DIY出千人交响乐团的位置排布!或许下个版本,我们就能用它给老电影《火车进站》配上环绕立体声——毕竟在这个AI重塑传媒的时代,谁不想当自己作品的音画总导演呢?
相关导航

站在技术前线说句公道话,SFR-RAG把RAG技术的faithfulness(忠实度)指标提升到了新高度。虽然参数规模不算顶流,但这种以精度换规模的做法,倒是给吃算力吃到吐的AI行业吹来一阵清风。

ChatMusician
用下来最惊艳还是它的结构性把控,你说要"奏鸣曲式的展开部",它绝不会给你弄成流行歌曲的重复副歌。更魔幻的是,这货生成的总谱居然自带表情记号,连"con brio"(充满活力地)这种专业标注都安排得明明白白。现在每次打开它的在线demo,都像在跟音乐学院优等生进行脑暴会议——只不过这位"学生"永远不会喊累,还能7×24小时飚创意。

Roop
深度学习、面部替换、AI换脸、开源工具、数字内容创作

书生·物华2.0(3DTopia 2.0)
一款能让建模效率翻十倍的国产开源神器

Void
开源免费的多模型AI编辑器,为开发者提供安全可控的智能编程体验

ActAnywhere
全球首款实现电影级人景互动的AI视频生成解决方案

Unique3D
通过单张图像快速生成高精度3D网格,满足影视/游戏/电商等多领域建模需求

Make-A-Character
数字内容生产工具革新者,重新定义3D角色创作流程
暂无评论...
