Meta 发布了两个新模型:感知语言模型+定位3D模型

8小时前 AI怪打工人
1

Meta推出感知语言模型(PLM)和定位3D(Locate3D)两项新技术。PLM采用视觉编码器与LLaMA 3解码器模块化架构,支持图像、视频及文档多模态任务,通过三阶段训练提升细粒度视觉理解与时空推理能力,在视频字幕生成等40+基准测试中性能提升39.8%。Locate3D基于3D-JEPA自监督算法,可直接处理RGB-D传感器数据,实现开放词汇3D物体定位,定位精度达61.7%,抓取成功率80%,适用于机器人、工业自动化及AR场景。两项技术均开源,PLM提供多模态基准测试,Locate3D发布大规模标注数据集,推动AI从环境感知向环境理解与操控演进,助力机器人、AR/VR等领域的技术发展。

来源:AI怪 [原文链接]

关注每日AI行业最新资讯,请前往AI快讯首页