Meta 发布了两个新模型：感知语言模型+定位3D模型

144 0

摘要

一、感知语言模型（Perception Language Model, PLM） 1. 技术架构模块化设计：PLM由视觉编码器（Perception Encoder）和LLaMA 3语言解码器组成，支持图像和视频输入。视觉编码器处理高分辨率图像（最多36个图块）和多帧视频（最多32帧），通过2层MLP投影器与语言模型连接。参数规模：提供1B、3B、8B三种参数版本，适应不同计算需求。训练流程…

一、感知语言模型（Perception Language Model, PLM）

1. 技术架构

模块化设计：PLM由视觉编码器（Perception Encoder）和LLaMA 3语言解码器组成，支持图像和视频输入。视觉编码器处理高分辨率图像（最多36个图块）和多帧视频（最多32帧），通过2层MLP投影器与语言模型连接。
参数规模：提供1B、3B、8B三种参数版本，适应不同计算需求。
训练流程：采用多阶段训练：
1. 预热阶段：使用低分辨率合成图像初始化模型；
2. 中期训练：在大规模合成数据集（约6470万样本）上优化；
3. 微调阶段：利用高分辨率人工标注数据进行监督学习，提升模型精度。

2. 核心功能

细粒度视觉理解：可识别伪装物体、追踪运动目标、分析物体空间关系（如前后位置、运动方向）。
多模态任务支持：
- 图像与视频问答：例如回答“视频中第三秒出现的物体是什么颜色？”；
- 字幕生成：生成包含时空信息的描述（如“人物从左侧走入画面并拿起杯子”）；
- 文档分析：解析图表和复杂排版文档。
时空推理：通过PLM-STC数据集（47.6万时空字幕）实现时间轴上的行为追踪。

3. 性能表现

在40多个图像和视频基准测试中，8B参数版本表现最优，视频字幕生成性能提升39.8%（CIDEr指标）。
在PLM-VideoBench基准测试中，细粒度活动识别（FGQA）接近人类水平，时空定位误差降低20%。

4. 应用场景

视频监控：自动生成监控视频的详细描述，支持快速检索关键事件。
自动驾驶：实时解析复杂道路场景中的动态物体行为。
教育辅助：为视障用户生成图像和视频的语音描述。

二、定位3D（Locate3D）

1. 技术架构

端到端流程：
1. 预处理层：将RGB-D传感器的2D特征转换为3D点云；
2. 3D-JEPA编码器：通过自监督学习生成场景的语义表达；
3. 解码器：结合自然语言查询输出物体的3D边界框和掩码。
自监督学习：采用3D-JEPA算法，通过掩码预测任务学习点云上下文特征。

2. 核心功能

开放词汇定位：支持自然语言指令（如“电视柜旁的花瓶”），理解复杂空间关系。
动态环境适应：直接处理传感器原始数据，无需人工标注或网格重建。
多场景泛化：在家庭、办公室、仓库等多样化环境中保持高精度。

3. 性能表现

在ScanRefer、SR3D等基准测试中，定位精度达61.7%（Recall@0.25），超越传统方法40%以上。
机器人部署测试中，抓取任务成功率80%（10次实验成功8次），处理速度1秒/场景（A100 GPU）。

4. 应用场景

家庭服务机器人：执行指令如“取餐桌上的遥控器”或“避开地上的玩具”；
工业自动化：在仓库中定位特定货架或设备；
增强现实（AR） ：为智能眼镜提供实时物体定位。

三、与传统技术的对比

1. PLM vs. 传统视觉-语言模型

维度	PLM	传统模型
数据依赖性	使用合成数据和开放数据集，无专有模型蒸馏	依赖闭源数据和黑盒模型输出
训练方法	多阶段训练，强调稳定性和可扩展性	单一阶段训练，易受数据偏差影响
任务广度	支持图像、视频、文档多模态任务	通常仅限单一模态（如图像或视频）

2. Locate3D vs. 传统物体定位技术

维度	Locate3D	传统方法
输入处理	直接处理传感器点云，无需后处理	依赖网格重建或人工标注
空间推理	结合语言查询的上下文语义（如“左侧”“附近”）	基于几何特征或2D投影，难以处理复杂关系
泛化能力	跨场景泛化精度提升56%（L3DD数据集验证）	需针对特定场景重新训练

四、开源与社区影响

PLM：公开模型代码、数据集（PLM-FGQA、PLM-STC）和基准测试（PLM-VideoBench），推动多模态研究的可重复性。
Locate3D：发布L3DD数据集（13万标注）和3D-JEPA算法，降低机器人定位技术的开发门槛。
行业应用：两项技术均集成至Meta的机器人项目（如PARTNR），并支持第三方开发者通过GitHub和论文复现。

五、未来展望

PLM：计划扩展至实时视频流分析和跨语言多模态任务。
Locate3D：优化动态场景处理能力，目标将定位速度提升至实时（<100ms）。

通过以上技术创新，Meta正在推动AI从“感知环境”向“理解并操控环境”的跨越，为机器人、AR/VR和自动化领域提供基础设施支持。

文章版权归作者所有，未经允许请勿转载。

微软 AI CEO Mustafa Suleyman：AI 正从 “工具时代” 迈向 “伙伴时代”，这些趋势你必须知道！

AI资讯 # AI伴侣应用 # 人机协作伦理 # 开源技术风险

3个月前

49

爱拍AIpai：重新定义人类与AI协同视频创作视频创作AI Agent

AI资讯 # AI短视频创作 # AI视频协作工具 # 多模态视频生成

3个月前

176

百度AI搜索上线DeepSearch：国内首个基于百亿级内容库的深度搜索

AI资讯 # DeepSearch # 多模态交互 # 文心大模型

3个月前

582

2025年AI笔记本选购指南：5款热门机型与核心配置全解析

AI资讯 # AI笔记本推荐 # AI笔记本电脑推荐

4个月前

889

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Meta 发布了两个新模型：感知语言模型+定位3D模型

一、感知语言模型（Perception Language Model, PLM）

1. 技术架构

2. 核心功能

3. 性能表现

4. 应用场景

二、定位3D（Locate3D）

1. 技术架构

2. 核心功能

3. 性能表现

4. 应用场景

三、与传统技术的对比

1. PLM vs. 传统视觉-语言模型

2. Locate3D vs. 传统物体定位技术

四、开源与社区影响

五、未来展望

我深度体验了 Cursor 0.5：重构计费模式与 AI 协作革命如何重塑开发效率？

英伟达开源 Qwen 2.5 驱动的代码推理模型，Qwen3 横扫多项榜单成中小企业首选

相关文章

微软 AI CEO Mustafa Suleyman：AI 正从 “工具时代” 迈向 “伙伴时代”，这些趋势你必须知道！

爱拍AIpai：重新定义人类与AI协同视频创作视频创作AI Agent

百度AI搜索上线DeepSearch：国内首个基于百亿级内容库的深度搜索

2025年AI笔记本选购指南：5款热门机型与核心配置全解析

暂无评论

热门AI助手

热门文章

Meta 发布了两个新模型：感知语言模型+定位3D模型

一、感知语言模型（Perception Language Model, PLM）

1. 技术架构

2. 核心功能

3. 性能表现

4. 应用场景

二、定位3D（Locate3D）

1. 技术架构

2. 核心功能

3. 性能表现

4. 应用场景

三、与传统技术的对比

1. PLM vs. 传统视觉-语言模型

2. Locate3D vs. 传统物体定位技术

四、开源与社区影响

五、未来展望

我深度体验了 Cursor 0.5：重构计费模式与 AI 协作革命如何重塑开发效率？

英伟达开源 Qwen 2.5 驱动的代码推理模型，Qwen3 横扫多项榜单成中小企业首选

相关文章

微软 AI CEO Mustafa Suleyman：AI 正从 “工具时代” 迈向 “伙伴时代”，这些趋势你必须知道！

爱拍AIpai：重新定义人类与AI协同视频创作视频创作AI Agent

百度AI搜索上线DeepSearch：国内首个基于百亿级内容库的深度搜索

2025年AI笔记本选购指南：5款热门机型与核心配置全解析

暂无评论

热门AI助手

热门文章

AI助手标签

AI标签云