Gemini 2.5 Pro 视频理解测试结果惊艳:多项任务领先,部分超越人类

近日,Gemini 2.5 Pro(05 – 06)在视频理解领域的测试结果引发关注,其表现堪称独树一帜,在多数视频理解任务上达到了领先水平(SOTA),甚至在一些测试集中超越了人类表现。正如 Logan Kilpatrick 所言:“Gemini 2.5 Pro (05 – 06) is SOTA at most video understanding tasks (by a large margin) 📽️. Lots of work by the Gemini multimodal team to make this happen, excited to see developers push this capability in new ways.” 这一成果背后,是 Gemini 多模态团队的大量努力,也为开发者开拓新应用带来了无限可能。
Gemini 2.5 Pro 视频理解测试结果惊艳:多项任务领先,部分超越人类Gemini 2.5 Pro 视频理解测试结果惊艳:多项任务领先,部分超越人类

Gemini 2.5 Pro 在不同视频理解任务中的卓越表现

视觉输入评估(Evaluations with Visual Inputs)

  • EgoTempo (test set):在 0 – shot 开放视频问答中,Gemini 2.5 Pro 取得 43.7 的成绩,相较于之前的模型,展现出更强的视频理解能力。
  • LVBench (test set):0 – shot 4 – choice VideoQA 任务中,其得分 68.2,高于此前的 60.9(Gemini 2.5 Flash),更接近人类表现(94.4),且大幅领先之前的 SOTA(60.1)。
  • Perception Test (test set):0 – shot 5 – choice VideoQA 中,77.3 的分数远超 Gemini 2.5 Flash 的 71.2,也领先之前的 Oryx(71.4),进一步证明其在视觉理解上的优势。
  • OVHighlights (val set):4 – shot 视频时刻检索任务中,72.6 的成绩优于 Gemini 2.5 Flash 的 70.2,尽管人类数据未完全展示,但已显露出其在该领域的竞争力。
  • VideoMMM (test set):0 – shot 5 – choice VideoQA 得分 81.3,高于 Gemini 2.5 Flash 的 71.9,且超越了 Kimi – x1.6(76.7)。
  • Ht – VideoQA (test set):0 – shot 5 – choice VideoQA 中,76.2 的分数领先 Gemini 2.5 Flash 的 64.3,也超过了 Gemini 1.5 Pro(72.2)。
Gemini 2.5 Pro 视频理解测试结果惊艳:多项任务领先,部分超越人类Gemini 2.5 Pro 视频理解测试结果惊艳:多项任务领先,部分超越人类

音视输入评估(Evaluations with Audio – Visual Inputs)

  • VideoMME (test set long subset):0 – shot 4 – choice VideoQA 中,82.0 的成绩高于 Gemini 2.5 Flash 的 77.8,也领先之前的 GPT 4.1(72.0)。
  • YouCook2 Cap (val set):4 – shot 视频剪辑字幕任务中,198.0 的分数几乎追平人类表现(此前 VAST 为 198.8),远超 Gemini 2.5 Flash 的 185.3。
  • YouCook2 DenseCap (val set):4 – shot 密集视频字幕任务,69.3 的得分高于 Gemini 2.5 Flash 的 67.6,也领先 Vid2Seq(67.2)。

视觉 – 字幕输入评估(Evaluations with Visual – Subtitles Inputs)

  • Minerva (test set):0 – shot 5 – choice VideoQA 中,63.5 的分数高于 Gemini 2.5 Flash 的 61.9,也领先 GPT 4.1(54.0)。
  • Neptune (test set):0 – shot 5 – choice VideoQA 中,85.4 的成绩优于 Gemini 2.5 Flash 的 84.5,且超过 GPT 4.1(85.1)。

音视 – 字幕输入评估(Evaluations with Audio – Visual – Subtitles Inputs)

  • VideoMME (test set):0 – shot 4 – choice VideoQA 中,85.2 的高分领先 Gemini 2.5 Flash 的 79.3,也超过 Gemini 1.5 Pro(81.3)。

Gemini 2.5 Pro 领先背后的意义

Gemini 2.5 Pro 在视频理解上的突破,不仅是技术层面的进步,更意味着多模态 AI 在实际应用中的潜力进一步释放。从视频问答到视频字幕生成,其精准度和效率的提升,将为教育、娱乐、安防等多个领域带来新的机遇。开发者可以借助其强大的视频理解能力,创造出更智能、更贴合用户需求的应用,比如更精准的视频内容推荐、智能视频分析系统等。

结语

Gemini 2.5 Pro 在视频理解测试中的优异表现,彰显了其在该领域的领先地位。无论是视觉、音视还是结合字幕的输入评估,它都交出了一份出色的答卷。随着技术的不断发展,我们有理由期待 Gemini 系列在未来为多模态 AI 应用带来更多惊喜,推动整个行业迈向新的高度。对于关注 AI 技术发展的人士来说,“Gemini 2.5 Pro 视频理解” 无疑是一个值得持续追踪的关键词,其每一次进步都可能为我们的生活和工作方式带来革新。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...