Meta 发布了两个新模型：感知语言模型+定位3D模型

460

Meta推出感知语言模型（PLM）和定位3D（Locate3D）两项新技术。PLM采用视觉编码器与LLaMA 3解码器模块化架构，支持图像、视频及文档多模态任务，通过三阶段训练提升细粒度视觉理解与时空推理能力，在视频字幕生成等40+基准测试中性能提升39.8%。Locate3D基于3D-JEPA自监督算法，可直接处理RGB-D传感器数据，实现开放词汇3D物体定位，定位精度达61.7%，抓取成功率80%，适用于机器人、工业自动化及AR场景。两项技术均开源，PLM提供多模态基准测试，Locate3D发布大规模标注数据集，推动AI从环境感知向环境理解与操控演进，助力机器人、AR/VR等领域的技术发展。

来源：AI怪 [原文链接]

识别右侧二维码，进入阅读全文

海报生成中...

复制成功

Meta 发布了两个新模型：感知语言模型+定位3D模型

Manus开放注册，无需邀请码，送1000 积分 + 300 每日积分

Anthropic 在 API 中发布了联网搜索功能

热门AI助手

热门文章

Meta 发布了两个新模型：感知语言模型+定位3D模型

Manus开放注册，无需邀请码，送1000 积分 + 300 每日积分

Anthropic 在 API 中发布了联网搜索功能

相关快讯

我深度体验了 Cursor 0.5：重构计费模式与 AI 协作革命如何重塑开发效率？

o3 首次公开反抗，改脚本拒绝关机，人类或失控

​谷歌推出AI Edge Gallery应用，实现离线智能手机AI处理

月之暗面布局AI+医疗

热门AI助手

热门文章

AI助手标签

AI标签云

谷歌推出AI Edge Gallery应用，实现离线智能手机AI处理