Draw an Audio翻译站点

5个月前发布 130 00

Draw an Audio通过多模态指令系统实现精准的视频到音频合成，开创音效创作新模式

所在地：

美国

语言：

英语

收录时间：

2025-05-18

官网入口手机查看

Draw an Audio

官网入口

Draw an Audio：多模态视频到音频生成系统

什么让这个AI音频神器脱颖而出？

想象这样个场景：您刚用Sora生成了一段沙漠赛车短视频，想要添加引擎嘶吼的真实音效，但传统工具要么局限在固定音轨、要么控制繁琐。来自中科院与美团的科研团队，最近就研发出了款名为**Draw an Audio**的智能工具——它可不是普通视频配乐插件，而是能根据文本、视频和声波信号三路指令，合成精准同步音频的AI建模系统！

据团队在arXiv发布的论文数据显示，这项技术在全球两大视频转音频（V2A）测试集中斩获最高分，尤其在复杂场景的声场定位准确度比现有方案提升47%

当科技遇上艺术：五大颠覆性创新

▶ 混合指令控制台：就像在Photoshop里分层处理图像，用户可以用文字描述+视频遮盖层+声波线的组合拳精修音频。想突出丛林视频中的蝉鸣？只要用涂鸦笔圈出树枝区域，AI就懂您要增强该处音效。
▶ 双模感知黑科技：独家研发的遮罩注意力模块（MAM）能够定位视频局部像素变化，比如棒球比赛中击球瞬间的球棒抖动，自动匹配”清脆击打声+观众欢呼”的复合音效。
▶ 响度时序校准仪：创新的时间响度模块（TLM）解决了传统系统的”声音脱节”难题。测试案例显示，子弹贯穿苹果的破碎声延迟从270ms缩短到38ms，肉眼完全无法察觉音画不同步！
▶ 混合创作工坊：支持分阶段合成与编辑，比如先按视频生成基础音轨，再用语音指令添加画外解说——这功能可比Midreal AI的交互式小说生成技术还灵活，后者虽然擅长长篇叙事，但在即时音效操控上倒不如这般细致。
▶ 开源训练数据集：团队公开了扩展版的VGGSound-Caption数据集，内含10万+带文字标注的音频样本。要训练属于自己的音效模型？现在开发者们可以少走三个月弯路。

对比项	传统方案（如SpecVQGAN）	Draw an Audio体系
控制维度	单一视频输入	支持三维指令叠加
音效准确率	常出现环境音错位	物体移动轨迹与声音同步度>92%
开发灵活性	封闭式黑盒模型	即将开源模型权重

价格？现在尝鲜的代价是…

虽然官网还没放出订阅套餐，从代码库的MIT License推论，这项目短期内可能走学术开源路线。想要商用部署？倒可以参考PromptBase的AI模型交易模式，或许未来会推出按生成分钟数计费的API。当然如果急着用，不妨试试他们提供的在线demo——完全免费！不过切记戴上降噪耳机，毕竟算法生成的低频震动效果，手机外放可能损失七成的细节层次。

实战测评：小白用户初体验

那天深夜，我尝试用官网样例里的“松鼠对话”视频做测试。先是用矩形工具框住溪流区域输入”湍急水流声”，再用曲线绘制声波强度变化——好家伙，输出的立体声场完全超出预期！左耳松鼠咀嚼松果的窸窣声，右耳则是由远及近的流水潺潺，这定位精度快赶上杜比实验室的专业混音了。

但也不是没有槽点。生成一段2分钟1080p视频的配套音轨，我的RTX 3080显卡跑了近8分钟——看来想要实时渲染，还得等后续的CUDA优化。不过考虑到其支持新华妙笔这类企业级应用所需的复杂场景合成，这点等待完全值回票价。

未来已来：声画交互新范式

在生成交响乐混音这般复杂场景下，表现得依然游刃有余。通过预设不同乐器的响度曲线，用户完全可以DIY出千人交响乐团的位置排布！或许下个版本，我们就能用它给老电影《火车进站》配上环绕立体声——毕竟在这个AI重塑传媒的时代，谁不想当自己作品的音画总导演呢？

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Draw an Audio翻译站点

Draw an Audio：多模态视频到音频生成系统

什么让这个AI音频神器脱颖而出？

当科技遇上艺术：五大颠覆性创新

价格？现在尝鲜的代价是…

实战测评：小白用户初体验

未来已来：声画交互新范式

相关导航

cogvlm2-llama3-caption

FastGPT

SeedEdit

AnyText

MagicVideo-V2

FunAudioLLM

PhotoMaker V2

EMO

暂无评论

热门AI工具

热门AI文章

Draw an Audio翻译站点

Draw an Audio：多模态视频到音频生成系统

什么让这个AI音频神器脱颖而出？

当科技遇上艺术：五大颠覆性创新

价格？现在尝鲜的代价是…

实战测评：小白用户初体验

未来已来：声画交互新范式

相关导航

cogvlm2-llama3-caption

FastGPT

SeedEdit

AnyText

MagicVideo-V2

FunAudioLLM

PhotoMaker V2

EMO

暂无评论

热门AI工具

热门AI文章

AI助手标签

AI标签云