昆仑万维开源Skywork-OR1系列模型 数学代码能力出色

4月13日,昆仑万维天工团队宣布推出全新升级的Skywork-OR1(Open Reasoner1)系列模型,这是继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后的又一力作。该系列模型在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。

此次开源的Skywork-OR1系列模型包括三款高性能模型:Skywork-OR1-Math-7B聚焦数学领域的专项模型,同时也具备较强的代码能力;Skywork-OR1-7B-Preview融合数学与代码能力,兼具通用性与专业性;Skywork-OR1-32B-Preview则是面向更高复杂度任务、具备更强推理能力的旗舰版本。

昆仑万维开源Skywork-OR1系列模型 数学代码能力出色插图

在竞赛编程任务中,通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上均取得了同等参数规模下的最优性能。Skywork-OR1-32B-Preview表现尤为突出,其代码生成与问题求解能力已接近DeepSeek-R1(参数规模高达671B),在大幅压缩模型体量的同时实现了卓越的性价比,充分展现出天工团队训练策略的先进性。

Skywork-OR1系列模型的显著性能突破离不开天工团队在模型后训练阶段的长期自研积累与技术深耕。在数据选择和预处理方面,Skywork-OR1构建了一个高质量数学和代码数据集,用于强化学习以提升模型在数学和代码领域的推理能力。团队根据可验证性、正确性与挑战性三个标准进行初步数据筛选,剔除无法自动验证的证明类题目、有误题目和缺少unit test的代码问题。在数据过滤方面,为避免“全对”或“全错”现象对策略学习无效,每道题进行了多轮采样并验证答案,并基于模型表现过滤难度极端的题目。

此外,Skywork-OR1采用了Group Relative Policy Optimization (GRPO)进行模型训练,并引入了训练时数据优化、训练Pipeline优化、训练时模型探索和训练Loss优化等多项优化措施。

Skywork-OR1系列开源地址:https://ift.tt/JZq8H3c

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息