
SFR-RAG
站在技术前线说句公道话,SFR-RAG把RAG技术的faithfulness(忠实度)指标提升到了新高度。虽然参数规模不算顶流,但这种以精度换规模的做法,倒是给吃算力吃到吐的AI行业吹来一阵清风。
作为一个沉迷AI视频工具的影像创作者,试过用Stable Diffusion生成静态图后,总想着要是能让角色动起来该多好。直到遇见清华大学与腾讯联合研发的Follow Your Pose,才明白什么叫”笔尖的跃动”。这个平台真正让我体验到”以姿为纲”的视频创作快感——上传草图姿势序列,输入”穿着赛博朋克盔甲的武士在月球表面挥剑”,转眼间就生成10秒逐帧匹配的动态视频,连披风飘动的角度都精确还原预设动作。
这个官网挂着Creative Commons协议的研究项目,藏着三个让我惊掉下巴的绝技:
谁说只能在现实场景蹦跶?我测试时故意搞怪:让蝙蝠侠在海面上做后空翻,结果算法连水面涟漪的物理效果都渲染得有模有样。最有趣的是用Write Wise网文小说写作生成的剧情大纲作提示词——”赛博歌剧院中的机械天鹅之死”,配合预设的芭蕾动作序列,生成的视频直接可以当微电影分镜使用。
测试案例 | 生成耗时 | 惊艳指数 |
---|---|---|
“沙漠机械舞”[输入5个关键帧] | 约3分钟 | 🤖🤖🤖🤖 |
“月球漫步的宇航员”[连续姿势] | 4分12秒 | 🚀🚀🚀🚀🚀 |
根据官网底部显示的LICENSE-Creative Commons协议判断,目前该项目仍属于学术研究性质。但查询腾讯混元官网发现,其进阶版”Follow-Your-Pose-v2″已支持商业级多人动作同步,可惜官方尚未放出具体套餐价格。我在体验时发现三个隐藏信息点:
玩了一周后的亲身建议:先准备好骨骼清奇的脑洞!这个工具最适合:
虽然生成10秒视频需要3-5分钟(GTX3090环境下),但当看到自己手绘的火柴人变身新海诚画风的武林高手,在星海间使出独孤九剑——这种打破次元壁的感动,确实值得等待。(P.S.记得搭配PromptBase的优质提示词,效果翻倍哟!)