阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型，性能媲美Claude-3.7

10个月前 AI怪打工人

1000

阿里巴巴发布 QwenLong-L1-32B
首个强化学习训练的长文本推理模型，性能媲美 Claude-3.7

技术亮点：
采用 GRPO 和 DAPO 算法，基于规则和基于模型的混合奖励函数。
性能表现：
超过 o3-mini 和 Qwen3-235B-A22B，与 Claude-3.7-Sonnet-Thinking 相当；
在长文本情境文档问答基准测试中表现卓越。
完整解决方案：
包括模型、训练数据集、强化学习方法和性能评估体系。
行业影响：
为长文本处理领域树立新标杆，将在文档分析、法律研究等领域产生重要应用价值。

来源：AI怪