开源新模型 DeepCoder：超高效编程，超越OpenAI o1模型

2025年4月9日 53

采集

在科技发展的浪潮中，人工智能（AI）技术日新月异。最近，由著名大模型训练平台 Together AI 和智能体平台 Agentica 联合开源的新模型 DeepCoder-14B-Preview，吸引了广泛关注。

该模型以仅有的140亿参数，在代码测试平台 LiveCodeBench 上的得分为60.6%，超过了 OpenAI 的 o1模型（59.5%），仅略低于 o3-mini(60.9%)。这一成绩在 Codeforces 和 AIME2024的评测中也表现出色，与 o1和 o3-mini 不相上下。

开源新模型 DeepCoder：超高效编程，超越OpenAI o1模型插图

DeepCoder 不仅仅是一个新模型，其开源内容丰富，包含了模型权重、训练数据集、训练方法、训练日志及优化策略等，极大方便了开发者深入理解模型的开发流程。开源地址和相关的 GitHub 链接均已公布，便于有兴趣的开发者进行探索和研究。

DeepCoder 是在 Deepseek-R1-Distilled-Qwen-14B 基础上，通过分布式强化学习（RL）进行微调而成。为了构建高质量的训练数据集，研究团队收集了24，000个可验证的编程问题，并通过程序验证、测试过滤和去重等步骤确保数据质量。所有问题均通过外部官方解决方案进行验证，并满足严格的单元测试标准。

在代码强化学习训练过程中，DeepCoder 使用了两种沙盒环境来执行单元测试并计算奖励。Together Code Interpreter 环境高效且可扩展，能够支持大量并发沙盒，另外一个本地代码沙盒则确保了与现有排行榜的一致性。

DeepCoder 在奖励函数设计上采用了稀疏结果奖励模型，确保模型专注于生成高质量代码，而非通过记忆测试用例获取奖励。同时，为了实现更稳定的训练过程，模型采用了改进版的 GRPO 算法，并引入了迭代上下文扩展技术，显著提高了模型的推理能力。

为了加速端到端的 RL 训练，DeepCoder 团队还开源了优化扩展 verl-pipeline，通过一次性流水线技术，使训练、奖励计算和采样的过程完全流水化，大大提高了训练效率。

尽管 DeepCoder 刚刚开源，然而网友们对其表现非常赞赏，认为其是一个值得期待的开源项目。Together AI 成立于2022年，致力于提供高性能的 AI 模型和服务，最近还获得了3.05亿美元的融资，显示出其在行业中的强劲势头。

开源地址:https://ift.tt/6NF5lXv

github:https://ift.tt/raT97KX

划重点:

🌟 DeepCoder-14B-Preview 模型表现优秀，得分超过 OpenAI 的 o1模型。

📈 开源内容丰富，包括模型权重和训练数据，方便开发者研究。

⚙️ 采用多种技术确保数据质量和训练效率，显著提升了模型性能。

Comments | NOTHING

空空如也！

开源新模型 DeepCoder：超高效编程，超越OpenAI o1模型

前 OpenAI 研究员揭露：签约 Meta 并未获 1 亿美元奖金

鸿海集团宣布进军 AI ASIC 芯片设计

Agent 工具集成利器!automcp 实现多框架向标准化 MCP 协议转换

从“懂创作”到“超长待机”：百度文心大模型赋能数字人，助力电商营销变革

OpenAI 首席执行官：警惕对人工智能的过度信任

SpaceX 大手笔投资！将向xAI注入20亿美元资金

开源新模型 DeepCoder：超高效编程，超越OpenAI o1模型

​前 OpenAI 研究员揭露：签约 Meta 并未获 1 亿美元奖金

​鸿海集团宣布进军 AI ASIC 芯片设计

Agent 工具集成利器!automcp 实现多框架向标准化 MCP 协议转换

从“懂创作”到“超长待机”：百度文心大模型赋能数字人，助力电商营销变革

​OpenAI 首席执行官：警惕对人工智能的过度信任

SpaceX 大手笔投资！将向xAI注入20亿美元资金

前 OpenAI 研究员揭露：签约 Meta 并未获 1 亿美元奖金

鸿海集团宣布进军 AI ASIC 芯片设计

OpenAI 首席执行官：警惕对人工智能的过度信任