DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性
近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R2似乎更近一步。目前,强化学习在大语言模型的大规模后训练阶段广泛应用,但面临为大语言模型获取准确奖励信号的挑战。
研究者发现,采用点式生成式奖励建模(GRM)能提升模型适应能力和推理阶段可扩展性。为此,他们提出自我原则点评调优(SPCT)学习方法,经此训练得到 DeepSeek - GRM 模型,如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示,SPCT 显著提高了 GRM 的质量和可扩展性,在多个基准测试中表现优于现有方法和模型。此外,研究者还引入元奖励模型(meta RM)引导投票过程,提升扩展性能。
SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM,还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。
为提升 DeepSeek - GRM 性能,研究团队探索推理时扩展策略。通过生成奖励进行投票,扩大奖励空间,提升最终奖励质量。同时,训练元奖励模型引导投票,过滤低质量样本。实验结果表明,DeepSeek - GRM -27B 整体性能出色,通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要,原则生成对模型性能也至关重要。此外,研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性,优于单纯扩大模型规模。
划重点:
💡DeepSeek 和清华研究者提出自我原则点评调优(SPCT)方法及引入元奖励模型(meta RM),提升奖励模型推理时可扩展性,构建出 DeepSeek - GRM 系列模型。
🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段,提高了 GRM 质量和扩展性,使 DeepSeek - GRM -27B 在基准测试中表现优异。
📈研究团队探索推理时扩展策略,通过生成奖励投票和元奖励模型引导投票提升性能,证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。
论文地址:
https://ift.tt/upOU7fZ
空空如也!