VideoPoet翻译站点

10个月前发布 265 00

Google VideoPoet突破传统视频制作流程，用大语言模型技术实现多模态零样本生成。

所在地：

美国

语言：

英语

收录时间：

2025-05-18

官网入口手机查看

VideoPoet

官网入口

VideoPoet：基于LLM的多模态视频生成神器

不用绿幕也能玩转魔法的视频编辑器

最近偶然在谷歌研究院博客读到个厉害玩意儿——VideoPoet。当时就被那个「宇航员骑马奔腾」的动图惊呆了！这可不是普通的修图工具，而是用大语言模型搞出的零样本生成器。简单来说就是扔张图片或输句话，它就能给你拍出带特效的大片儿。说实话，比某些专业剪辑软件还带感！

三个让我当场收藏的硬核功能

时空交错式剪辑：直接把泰迪熊的轮滑视频变成水晶冰湖场景，连冰块反光都处理得贼真实。这个风格化模式根本不需要手动调参数，选个「蒸汽朋克」或「水墨风格」的prompt就成。
电影级续集生成：帮同事测试时，我们输入「浣熊登山者发现恐龙化石」，系统愣是生成了5个不同版本的结尾（包括科幻风与纪录片风），想不中奖都难。
自动响片师：给猫咪玩毛球的视频一键配上「毛线滚动声+喵呜配音」，重点是完全不用标注音轨时间轴，生成效果比我用Adobe全家桶折腾半天还自然。

要是手上没现成素材怎么办？试试PromptBase这个AI提示词宝库，专业玩家整理的影视级生成模板直接套用，省得自己瞎编提示词。

功能场景	输入样例	输出效果
动画二创	输入蒙娜丽莎画像	生成人物打哈欠的4秒动态视频
广告创意	“越野车穿越沙漠”	沙尘暴+引擎轰鸣的15秒长镜头

这个AI工具有多「智能」？

用过其他视频生成工具的肯定懂，经常出现「人物瞬移」或「背景抽搐」的情况。但VideoPoet在迭代生成时，居然能记住前1秒出现的所有细节——某次测试生成长达10秒的航拍画面，中途的云层变化完全没断层。

更绝的是它的交互式编辑：选中某个视频帧说「给火山喷口加烟雾特效」，系统能自动匹配烟雾飘动方向，完全不需手动绘制遮罩。需要商业级提案的话，推荐搭配司马阅文档工具做即时方案分析。

实测彩蛋：
当输入「无人机视角俯瞰森林」时，系统同步生成了螺旋桨音效加速淡出的背景音，这种多模态配合简直把「真实感」推上新高度。

现在能用的价格是…

说真的，想掏钱也找不到入口！谷歌目前只放出研究成果和部分demo，看文献说明他们的MAGVIT-2视频编码器还在持续训练。不过从技术文档推测，可能采取按分钟生成计费的模式（参照Runway ML这类竞品），也有可能集成到Google Workspace的商业套餐里。

素人测评报告：零门槛能玩出什么花样

作为非专业人士，我最中意的是「一键修复老视频」功能：上传90年代DV拍的模糊影像，选「修复+色彩增强」标签，再输入「复古霓虹灯风格」。等上两分钟，直接输出带光晕效果的HD视频！要不说科技改变生活呢。

操作过程中有三个爽点：
1. 全程网页端运行不占内存
2. 中文prompt也能正常识别
3. 生成失败时会给改善建议（比如提示「添加更多环境描述词」）

不过要注意，人物面部细节偶尔会崩坏。试过生成「乔布斯演讲特写」，结果五官有点扭曲——可能还需要更多名人肖像数据的训练。

创作者必学的三大隐藏技巧

用「相机运动提示词」控制镜头语言：比如「缓慢推进」「180度环绕」等指令
多模态串联玩法：先生成视频配乐，再把这个音频作为新任务的输入源

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

VideoPoet翻译站点

VideoPoet：基于LLM的多模态视频生成神器

不用绿幕也能玩转魔法的视频编辑器

三个让我当场收藏的硬核功能

这个AI工具有多「智能」？

现在能用的价格是…

素人测评报告：零门槛能玩出什么花样

创作者必学的三大隐藏技巧

相关导航

Draw an Audio

SFR-RAG

MinerU

OmniParser

Boximator

PortraitGen

Animate Anyone

ScreenAgent

暂无评论

热门AI工具

热门AI文章

VideoPoet翻译站点

VideoPoet：基于LLM的多模态视频生成神器

不用绿幕也能玩转魔法的视频编辑器

三个让我当场收藏的硬核功能

这个AI工具有多「智能」？

现在能用的价格是…

素人测评报告：零门槛能玩出什么花样

创作者必学的三大隐藏技巧

相关导航

Draw an Audio

SFR-RAG

MinerU

OmniParser

Boximator

PortraitGen

Animate Anyone

ScreenAgent

暂无评论

热门AI工具

热门AI文章

AI助手标签

AI标签云