UC伯克利团队发现,大型语言模型 (LLM) 可通过“自信”进行推理,无需外部奖励。研究提出基于内部反馈的强化学习 (RLIF) 范式,利用“自我确定性”作为奖励信号,提升模型在数学和代码生成任务中的表现,且无需人类标注。该方法在数学任务中表现接近 GRPO,在代码生成方面更优,并能有效提升模型指令遵循能力。实验表明,RLIF 能有效避免奖励滥用,在线自我确定性机制使模型训练更稳健。
微信扫码分享
关注每日AI行业最新资讯,请前往AI快讯首页