Meta 发布了两个新模型:感知语言模型+定位3D模型

AI资讯8小时前更新 AI怪打工人
9 0

一、感知语言模型(Perception Language Model, PLM

Meta 发布了两个新模型:感知语言模型+定位3D模型

1. 技术架构

  • 模块化设计:PLM由视觉编码器(Perception Encoder)和LLaMA 3语言解码器组成,支持图像和视频输入。视觉编码器处理高分辨率图像(最多36个图块)和多帧视频(最多32帧),通过2层MLP投影器与语言模型连接。
  • 参数规模:提供1B、3B、8B三种参数版本,适应不同计算需求。
  • 训练流程:采用多阶段训练:
    1. 预热阶段:使用低分辨率合成图像初始化模型;
    2. 中期训练:在大规模合成数据集(约6470万样本)上优化;
    3. 微调阶段:利用高分辨率人工标注数据进行监督学习,提升模型精度。

2. 核心功能

  • 细粒度视觉理解:可识别伪装物体、追踪运动目标、分析物体空间关系(如前后位置、运动方向)。
  • 多模态任务支持
    • 图像与视频问答:例如回答“视频中第三秒出现的物体是什么颜色?”;
    • 字幕生成:生成包含时空信息的描述(如“人物从左侧走入画面并拿起杯子”);
    • 文档分析:解析图表和复杂排版文档。
  • 时空推理:通过PLM-STC数据集(47.6万时空字幕)实现时间轴上的行为追踪。

3. 性能表现

  • 在40多个图像和视频基准测试中,8B参数版本表现最优,视频字幕生成性能提升39.8%(CIDEr指标)。
  • 在PLM-VideoBench基准测试中,细粒度活动识别(FGQA)接近人类水平,时空定位误差降低20%。

4. 应用场景

  • 视频监控:自动生成监控视频的详细描述,支持快速检索关键事件。
  • 自动驾驶:实时解析复杂道路场景中的动态物体行为。
  • 教育辅助:为视障用户生成图像和视频的语音描述。

二、定位3D(Locate3D

Meta 发布了两个新模型:感知语言模型+定位3D模型

1. 技术架构

  • 端到端流程
    1. 预处理层:将RGB-D传感器的2D特征转换为3D点云;
    2. 3D-JEPA编码器:通过自监督学习生成场景的语义表达;
    3. 解码器:结合自然语言查询输出物体的3D边界框和掩码。
  • 自监督学习:采用3D-JEPA算法,通过掩码预测任务学习点云上下文特征。

2. 核心功能

  • 开放词汇定位:支持自然语言指令(如“电视柜旁的花瓶”),理解复杂空间关系。
  • 动态环境适应:直接处理传感器原始数据,无需人工标注或网格重建。
  • 多场景泛化:在家庭、办公室、仓库等多样化环境中保持高精度。

3. 性能表现

  • 在ScanRefer、SR3D等基准测试中,定位精度达61.7%(Recall@0.25),超越传统方法40%以上。
  • 机器人部署测试中,抓取任务成功率80%(10次实验成功8次),处理速度1秒/场景(A100 GPU)。

4. 应用场景

  • 家庭服务机器人:执行指令如“取餐桌上的遥控器”或“避开地上的玩具”;
  • 工业自动化:在仓库中定位特定货架或设备;
  • 增强现实(AR) :为智能眼镜提供实时物体定位。

三、与传统技术的对比

1. PLM vs. 传统视觉-语言模型

维度 PLM 传统模型
数据依赖性 使用合成数据和开放数据集,无专有模型蒸馏 依赖闭源数据和黑盒模型输出
训练方法 多阶段训练,强调稳定性和可扩展性 单一阶段训练,易受数据偏差影响
任务广度 支持图像、视频、文档多模态任务 通常仅限单一模态(如图像或视频)

2. Locate3D vs. 传统物体定位技术

维度 Locate3D 传统方法
输入处理 直接处理传感器点云,无需后处理 依赖网格重建或人工标注
空间推理 结合语言查询的上下文语义(如“左侧”“附近”) 基于几何特征或2D投影,难以处理复杂关系
泛化能力 跨场景泛化精度提升56%(L3DD数据集验证) 需针对特定场景重新训练

四、开源与社区影响

  • PLM:公开模型代码、数据集(PLM-FGQA、PLM-STC)和基准测试(PLM-VideoBench),推动多模态研究的可重复性。
  • Locate3D:发布L3DD数据集(13万标注)和3D-JEPA算法,降低机器人定位技术的开发门槛。
  • 行业应用:两项技术均集成至Meta的机器人项目(如PARTNR),并支持第三方开发者通过GitHub和论文复现。

五、未来展望

  • PLM:计划扩展至实时视频流分析和跨语言多模态任务。
  • Locate3D:优化动态场景处理能力,目标将定位速度提升至实时(<100ms)。

通过以上技术创新,Meta正在推动AI从“感知环境”向“理解并操控环境”的跨越,为机器人、AR/VR和自动化领域提供基础设施支持。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...