​字节豆包开源 Seed 智能体模型 UI-TARS-1.5

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5,这是一款基于视觉 - 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取得了 SOTA(State-of-the-Art)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。这一开源项目标志着多模态智能体技术在 GUI 操作和游戏推理领域取得了重要进展。

UI-TARS-1.5基于字节跳动此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。这种“思考 - 再行动”机制显著提升了模型在面对未知环境和任务时的泛化能力,使得 UI-TARS-1.5在多项主流评测基准上较此前领域最优模型取得了更好表现。例如,在 GUI Grounding 能力评估中,UI-TARS-1.5在高难度的 ScreenSpotPro 上的准确率达到61.6%,超过 Claude 的27.7%、CUA 的23.4% 以及此前领域最优模型的43.6%。

​字节豆包开源 Seed 智能体模型 UI-TARS-1.5插图

在游戏任务中,UI-TARS-1.5也展现了出色的表现。团队选取了 poki.com 上14款风格各异的小游戏进行测试,模型每局最多允许1000步交互。UI-TARS-1.5在这些游戏任务中不仅展现了较好的表现,还呈现出稳定的推断时扩展性。此外,团队进一步在开放环境 Minecraft(《我的世界》游戏)中评估了 UI-TARS-1.5的能力。在 MineRL 标准评测任务中,UI-TARS-1.5在“寻找并破坏特定方块”和“搜索并击败敌对生物”两个任务中均取得了最高成功率,特别是在启用“思考模块”后表现更加突出,验证了“思考 - 再行动”机制的有效性。

UI-TARS-1.5的成功源于团队在四个维度的技术探索:视觉感知增强、System2推理机制、统一动作建模以及可自我演化的训练范式。通过这些技术,UI-TARS-1.5能够实现精准的 GUI 操作,并在复杂任务中表现出色。例如,用户想让模型“把字体调大”,通用模型往往理解模糊、操作失误,而 UI-TARS 能迅速定位“设置”入口,并基于既有知识推理出正确路径,精准完成操作。

UI-TARS 团队认为,智能体的演进正从框架(framework)向模型(model)转变。UI-TARS 属于“原生智能体模型(Agent Model)”,具备完整的感知 - 推理 - 记忆 - 行动一体化结构,能在训练中不断积累知识与经验,具备更强的泛化能力与适应能力。这种“从数据出发”的闭环范式,使得 UI-TARS 不再依赖人工规则与提示工程,也无需重复设定交互步骤,极大降低了开发门槛。

未来,UI-TARS 团队将继续通过强化学习提升 UI-TARS 在复杂任务中的性能表现,期望达到接近人类的水平,同时将继续优化 UI-TARS 的产品体验,进一步提升使用流畅度并丰富交互能力。UI-TARS-1.5的开源,为开发者和研究人员提供了一个强大的工具,推动多模态智能体技术的发展。开源地址如下:

- GitHub:https://ift.tt/q3AaVuy

- Website:https://seed-tars.com/

- Arxiv:https://ift.tt/sDvyjSQ

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息