腾讯开源语音数字人模型HunyuanVideo-Avatar,仅需图片和音频即可生成数字人说话或唱歌视频。该模型能理解音频情感和环境,支持头部、半身、全身驱动,音画同步效果出色,支持多种风格、物种和多人场景。核心技术包括角色图像注入、多模态扩散Transformer架构等。用户可在腾讯混元官网体验。
微信扫码分享
关注每日AI行业最新资讯,请前往AI快讯首页