在数字内容创作领域,人像动画技术正经历从静态到动态的革命性突破。快手科技联合中科大、复旦大学等机构推出的
LivePortrait,以创新的
隐式关键点框架(implicit-keypoint-based framework)为核心,打造了兼具高效性、可控性与泛化能力的人像动画生成方案。其官网(
https://liveportrait.github.io/)公开的技术细节与演示成果显示,该框架不仅突破了传统扩散模型的计算瓶颈,更通过 ** 缝合(Stitching)
与重定向控制(Retargeting Control)** 模块,实现了从单张静态图像生成逼真动态视频的跨越式升级。
极速生成,颠覆传统效率
LivePortrait 基于6900 万高质量训练帧与混合图像 – 视频训练策略,在 RTX 4090 GPU 上实现12.8ms / 帧的推理速度,较主流扩散模型提速数十倍。这一特性使其在短视频创作、虚拟人驱动等实时场景中具备显著落地优势。
精细控制,解锁动画自由度
- 缝合模块(Stitching Module):支持多人像无缝拼接动画,消除多主体交互时的视觉割裂感,适用于群体肖像动态化场景。
- 重定向控制(Retargeting Control):通过轻量级 MLP 网络,实现眼部开合程度与唇部张合幅度的标量控制,用户可基于单一参数精准调节表情细节,例如从 “微笑” 到 “大笑” 的平滑过渡。
跨风格泛化,突破内容边界
无论是写实人像、油画、雕塑还是 3D 渲染风格,LivePortrait 均能实现动态迁移。更值得关注的是,通过动物数据微调,该框架可驱动猫、狗、熊猫等动物图像,展现出对非人类主体的强大适配能力。
区别于依赖大规模扩散模型的传统方案,LivePortrait 构建了两阶段训练架构:
- 第一阶段(基础模型训练):通过外观提取器(Appearance Extractor)、运动提取器(Motion Extractor)与变形模块(Warping Module)的协同优化,实现从驱动视频到目标图像的运动迁移。
- 第二阶段(控制模块训练):冻结基础模型参数,单独优化缝合与重定向模块,以近乎零计算开销(negligible computational overhead)增强可控性。
其核心技术亮点在于 ** 紧凑隐式关键点(Compact Implicit Keypoints)** 的设计 —— 通过编码面部表情与头部姿态的混合形状(Blendshapes),在保证精度的同时大幅降低计算复杂度。实验数据显示,该框架在定量指标(如面部关键点误差)与定性效果(如表情自然度)上均超越同类扩散模型。
LivePortrait 的技术特性使其在多领域具备落地潜力:
- 内容创作:单图生成短视频,降低虚拟人动画制作门槛;
- 影视特效:支持跨风格动态化,助力复古肖像、艺术作品的影视化改编;
- 互动娱乐:实时表情控制适用于直播虚拟形象、游戏 NPC 动态交互;
- 科研与教育:为心理学表情研究、数字文物活化提供技术支撑。
目前,LivePortrait 的
推理代码与预训练模型已开源至 GitHub(
https://github.com/KwaiVGI/LivePortrait),并提供在线演示(Online Demo)供用户体验。论文《LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control》已发布于 arXiv(arXiv:2407.03168),详细技术细节可参考原文。
LivePortrait:重新定义人像动画的未来
作为隐式关键点框架的集大成者,LivePortrait 以 “效率 + 控制” 为双引擎,为静态图像注入动态生命力。无论是专业创作者还是技术开发者,均可通过这一工具解锁无限创意可能。随着多模态数据与算力的持续进化,该框架有望推动数字人像领域从 “逼真模拟” 迈向 “智能创作” 的全新阶段。