阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7

阿里巴巴发布 QwenLong-L1-32B
首个强化学习训练的长文本推理模型,性能媲美 Claude-3.7
  • 技术亮点:
    采用 GRPO 和 DAPO 算法,基于规则和基于模型的混合奖励函数。
  • 性能表现:
    超过 o3-mini 和 Qwen3-235B-A22B,与 Claude-3.7-Sonnet-Thinking 相当;
    在长文本情境文档问答基准测试中表现卓越。
  • 完整解决方案:
    包括模型、训练数据集、强化学习方法和性能评估体系。
  • 行业影响:
    为长文本处理领域树立新标杆,将在文档分析、法律研究等领域产生重要应用价值。
来源:AI怪

关注每日AI行业最新资讯,请前往AI快讯首页