Gemini 2.5 Pro 视频理解测试结果惊艳：多项任务领先，部分超越人类

393 0

摘要

开头点明Gemini 2.5 Pro视频理解多项领先部分超人类
1. 视觉任务EgoTempo达43.7分远超前代
2. 音视结合VideoMME获82分碾压竞品
3. 字幕辅助Neptune逼近人类85.4分
这项突破让AI处理视频更精准，教育娱乐安防等领域将迎新变革，开发者能创造更智能应用

近日，Gemini 2.5 Pro（05 – 06）在视频理解领域的测试结果引发关注，其表现堪称独树一帜，在多数视频理解任务上达到了领先水平（SOTA），甚至在一些测试集中超越了人类表现。正如 Logan Kilpatrick 所言：“Gemini 2.5 Pro (05 – 06) is SOTA at most video understanding tasks (by a large margin) 📽️. Lots of work by the Gemini multimodal team to make this happen, excited to see developers push this capability in new ways.” 这一成果背后，是 Gemini 多模态团队的大量努力，也为开发者开拓新应用带来了无限可能。

Gemini 2.5 Pro 在不同视频理解任务中的卓越表现

视觉输入评估（Evaluations with Visual Inputs）

EgoTempo (test set)：在 0 – shot 开放视频问答中，Gemini 2.5 Pro 取得 43.7 的成绩，相较于之前的模型，展现出更强的视频理解能力。
LVBench (test set)：0 – shot 4 – choice VideoQA 任务中，其得分 68.2，高于此前的 60.9（Gemini 2.5 Flash），更接近人类表现（94.4），且大幅领先之前的 SOTA（60.1）。
Perception Test (test set)：0 – shot 5 – choice VideoQA 中，77.3 的分数远超 Gemini 2.5 Flash 的 71.2，也领先之前的 Oryx（71.4），进一步证明其在视觉理解上的优势。
OVHighlights (val set)：4 – shot 视频时刻检索任务中，72.6 的成绩优于 Gemini 2.5 Flash 的 70.2，尽管人类数据未完全展示，但已显露出其在该领域的竞争力。
VideoMMM (test set)：0 – shot 5 – choice VideoQA 得分 81.3，高于 Gemini 2.5 Flash 的 71.9，且超越了 Kimi – x1.6（76.7）。
Ht – VideoQA (test set)：0 – shot 5 – choice VideoQA 中，76.2 的分数领先 Gemini 2.5 Flash 的 64.3，也超过了 Gemini 1.5 Pro（72.2）。

音视输入评估（Evaluations with Audio – Visual Inputs）

VideoMME (test set long subset)：0 – shot 4 – choice VideoQA 中，82.0 的成绩高于 Gemini 2.5 Flash 的 77.8，也领先之前的 GPT 4.1（72.0）。
YouCook2 Cap (val set)：4 – shot 视频剪辑字幕任务中，198.0 的分数几乎追平人类表现（此前 VAST 为 198.8），远超 Gemini 2.5 Flash 的 185.3。
YouCook2 DenseCap (val set)：4 – shot 密集视频字幕任务，69.3 的得分高于 Gemini 2.5 Flash 的 67.6，也领先 Vid2Seq（67.2）。

视觉 – 字幕输入评估（Evaluations with Visual – Subtitles Inputs）

Minerva (test set)：0 – shot 5 – choice VideoQA 中，63.5 的分数高于 Gemini 2.5 Flash 的 61.9，也领先 GPT 4.1（54.0）。
Neptune (test set)：0 – shot 5 – choice VideoQA 中，85.4 的成绩优于 Gemini 2.5 Flash 的 84.5，且超过 GPT 4.1（85.1）。

音视 – 字幕输入评估（Evaluations with Audio – Visual – Subtitles Inputs）

VideoMME (test set)：0 – shot 4 – choice VideoQA 中，85.2 的高分领先 Gemini 2.5 Flash 的 79.3，也超过 Gemini 1.5 Pro（81.3）。

Gemini 2.5 Pro 领先背后的意义

Gemini 2.5 Pro 在视频理解上的突破，不仅是技术层面的进步，更意味着多模态 AI 在实际应用中的潜力进一步释放。从视频问答到视频字幕生成，其精准度和效率的提升，将为教育、娱乐、安防等多个领域带来新的机遇。开发者可以借助其强大的视频理解能力，创造出更智能、更贴合用户需求的应用，比如更精准的视频内容推荐、智能视频分析系统等。

结语

Gemini 2.5 Pro 在视频理解测试中的优异表现，彰显了其在该领域的领先地位。无论是视觉、音视还是结合字幕的输入评估，它都交出了一份出色的答卷。随着技术的不断发展，我们有理由期待 Gemini 系列在未来为多模态 AI 应用带来更多惊喜，推动整个行业迈向新的高度。对于关注 AI 技术发展的人士来说，“Gemini 2.5 Pro 视频理解” 无疑是一个值得持续追踪的关键词，其每一次进步都可能为我们的生活和工作方式带来革新。