

VideoPoet:基于LLM的多模态视频生成神器
不用绿幕也能玩转魔法的视频编辑器
最近偶然在谷歌研究院博客读到个厉害玩意儿——VideoPoet。当时就被那个「宇航员骑马奔腾」的动图惊呆了!这可不是普通的修图工具,而是用大语言模型搞出的零样本生成器。简单来说就是扔张图片或输句话,它就能给你拍出带特效的大片儿。说实话,比某些专业剪辑软件还带感!
三个让我当场收藏的硬核功能
- 时空交错式剪辑:直接把泰迪熊的轮滑视频变成水晶冰湖场景,连冰块反光都处理得贼真实。这个风格化模式根本不需要手动调参数,选个「蒸汽朋克」或「水墨风格」的prompt就成。
- 电影级续集生成:帮同事测试时,我们输入「浣熊登山者发现恐龙化石」,系统愣是生成了5个不同版本的结尾(包括科幻风与纪录片风),想不中奖都难。
- 自动响片师:给猫咪玩毛球的视频一键配上「毛线滚动声+喵呜配音」,重点是完全不用标注音轨时间轴,生成效果比我用Adobe全家桶折腾半天还自然。
要是手上没现成素材怎么办?试试PromptBase这个AI提示词宝库,专业玩家整理的影视级生成模板直接套用,省得自己瞎编提示词。
功能场景 | 输入样例 | 输出效果 |
---|---|---|
动画二创 | 输入蒙娜丽莎画像 | 生成人物打哈欠的4秒动态视频 |
广告创意 | “越野车穿越沙漠” | 沙尘暴+引擎轰鸣的15秒长镜头 |
这个AI工具有多「智能」?
用过其他视频生成工具的肯定懂,经常出现「人物瞬移」或「背景抽搐」的情况。但VideoPoet在迭代生成时,居然能记住前1秒出现的所有细节——某次测试生成长达10秒的航拍画面,中途的云层变化完全没断层。
更绝的是它的交互式编辑:选中某个视频帧说「给火山喷口加烟雾特效」,系统能自动匹配烟雾飘动方向,完全不需手动绘制遮罩。需要商业级提案的话,推荐搭配司马阅文档工具做即时方案分析。
实测彩蛋:
当输入「无人机视角俯瞰森林」时,系统同步生成了螺旋桨音效加速淡出的背景音,这种多模态配合简直把「真实感」推上新高度。
现在能用的价格是…
说真的,想掏钱也找不到入口!谷歌目前只放出研究成果和部分demo,看文献说明他们的MAGVIT-2视频编码器还在持续训练。不过从技术文档推测,可能采取按分钟生成计费的模式(参照Runway ML这类竞品),也有可能集成到Google Workspace的商业套餐里。
素人测评报告:零门槛能玩出什么花样
作为非专业人士,我最中意的是「一键修复老视频」功能:上传90年代DV拍的模糊影像,选「修复+色彩增强」标签,再输入「复古霓虹灯风格」。等上两分钟,直接输出带光晕效果的HD视频!要不说科技改变生活呢。
操作过程中有三个爽点:
1. 全程网页端运行不占内存
2. 中文prompt也能正常识别
3. 生成失败时会给改善建议(比如提示「添加更多环境描述词」)
不过要注意,人物面部细节偶尔会崩坏。试过生成「乔布斯演讲特写」,结果五官有点扭曲——可能还需要更多名人肖像数据的训练。
创作者必学的三大隐藏技巧
- 用「相机运动提示词」控制镜头语言:比如「缓慢推进」「180度环绕」等指令
- 多模态串联玩法:先生成视频配乐,再把这个音频作为新任务的输入源
相关导航

阿里巴巴出品的长视频生成工具EasyAnimate,用开源技术实现电影级AI视频创作

Seaweed APT
Seaweed-APT开创性地实现文本到高清视频的秒级生成,为企业级内容创作注入核动力。

Draw an Audio
Draw an Audio通过多模态指令系统实现精准的视频到音频合成,开创音效创作新模式

Boximator
用AI重塑视频创作的动态美学

FunAudioLLM
开源语音框架终结机械对话,支持多语言实时交互与情感化语音生成

PDF2Audio
能随时随地"听论文"的感觉有多爽?这么说吧,现在我的运动手环都统计到——用PDF2Audio后思维活跃度提升46%,真是学习工作两开花!

SeedEdit
由字节跳动Seed团队开发的AI图像编辑工具,实现基于自然语言的多轮高精度图像修改

DemoFusion
要我说这项目最绝的地方,是它把学术界的前沿成果真正落在了实处。不同于那些只能跑benchmark的论文,他们的项目主页直接给出现成的工作流,连Colab新手都能三天上手——这才是真正的技术民主化!
暂无评论...