
VideoPoet:基于LLM的多模态视频生成神器
不用绿幕也能玩转魔法的视频编辑器
最近偶然在谷歌研究院博客读到个厉害玩意儿——VideoPoet。当时就被那个「宇航员骑马奔腾」的动图惊呆了!这可不是普通的修图工具,而是用大语言模型搞出的零样本生成器。简单来说就是扔张图片或输句话,它就能给你拍出带特效的大片儿。说实话,比某些专业剪辑软件还带感!
三个让我当场收藏的硬核功能
- 时空交错式剪辑:直接把泰迪熊的轮滑视频变成水晶冰湖场景,连冰块反光都处理得贼真实。这个风格化模式根本不需要手动调参数,选个「蒸汽朋克」或「水墨风格」的prompt就成。
- 电影级续集生成:帮同事测试时,我们输入「浣熊登山者发现恐龙化石」,系统愣是生成了5个不同版本的结尾(包括科幻风与纪录片风),想不中奖都难。
- 自动响片师:给猫咪玩毛球的视频一键配上「毛线滚动声+喵呜配音」,重点是完全不用标注音轨时间轴,生成效果比我用Adobe全家桶折腾半天还自然。
要是手上没现成素材怎么办?试试PromptBase这个AI提示词宝库,专业玩家整理的影视级生成模板直接套用,省得自己瞎编提示词。
| 功能场景 | 输入样例 | 输出效果 |
|---|---|---|
| 动画二创 | 输入蒙娜丽莎画像 | 生成人物打哈欠的4秒动态视频 |
| 广告创意 | “越野车穿越沙漠” | 沙尘暴+引擎轰鸣的15秒长镜头 |
这个AI工具有多「智能」?
用过其他视频生成工具的肯定懂,经常出现「人物瞬移」或「背景抽搐」的情况。但VideoPoet在迭代生成时,居然能记住前1秒出现的所有细节——某次测试生成长达10秒的航拍画面,中途的云层变化完全没断层。
更绝的是它的交互式编辑:选中某个视频帧说「给火山喷口加烟雾特效」,系统能自动匹配烟雾飘动方向,完全不需手动绘制遮罩。需要商业级提案的话,推荐搭配司马阅文档工具做即时方案分析。
实测彩蛋:
当输入「无人机视角俯瞰森林」时,系统同步生成了螺旋桨音效加速淡出的背景音,这种多模态配合简直把「真实感」推上新高度。
现在能用的价格是…
说真的,想掏钱也找不到入口!谷歌目前只放出研究成果和部分demo,看文献说明他们的MAGVIT-2视频编码器还在持续训练。不过从技术文档推测,可能采取按分钟生成计费的模式(参照Runway ML这类竞品),也有可能集成到Google Workspace的商业套餐里。
素人测评报告:零门槛能玩出什么花样
作为非专业人士,我最中意的是「一键修复老视频」功能:上传90年代DV拍的模糊影像,选「修复+色彩增强」标签,再输入「复古霓虹灯风格」。等上两分钟,直接输出带光晕效果的HD视频!要不说科技改变生活呢。
操作过程中有三个爽点:
1. 全程网页端运行不占内存
2. 中文prompt也能正常识别
3. 生成失败时会给改善建议(比如提示「添加更多环境描述词」)
不过要注意,人物面部细节偶尔会崩坏。试过生成「乔布斯演讲特写」,结果五官有点扭曲——可能还需要更多名人肖像数据的训练。
创作者必学的三大隐藏技巧
- 用「相机运动提示词」控制镜头语言:比如「缓慢推进」「180度环绕」等指令
- 多模态串联玩法:先生成视频配乐,再把这个音频作为新任务的输入源
相关导航

开源多模态训练领域的里程碑式资源库

Outfit Anyone
当技术审美遇上算法创造力,虚拟世界的时尚革命早已悄然揭幕。

GPT-SoVITS
一款开源的跨语言语音克隆工具,支持5秒样本实时合成,无需编程即可通过WebUI实现专业级语音克隆

AnimateDiff
特别提示:根据ComfyUI-AnimateDiff-Evolved的README,商业用途得额外授权。想靠这个接单的同学记得走官方渠道申请license!

ConsiStory
无需微调即可实现跨图像主题一致性的革命性AI生成技术

Follow Your Pose
通过姿势与文字的双重指引生成可编辑风格化视频

F5-TTS
基于扩散式变压器实现零样本多语言合成的尖端语音生成技术

RapidPages
以自然语言生成标准React+Tailwind代码的开源开发平台
暂无评论...
