字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体

发布时间:2025-05-12 15:18:28 来源:互联网

本站 4 月 18 日消息,本站从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

有关的链接如下:

    GitHub:https://github.com/bytedance/UI-TARS

    Website:https://seed-tars.com/

    Arxiv:https://arxiv.org/abs/2501.12326

    UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。

    该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。

    据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

      视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。

      System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。

      统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。

      可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

本周热门教程

1
91网站:提供丰富多样内容的互动平台,未来将迎来更智能化发展

91网站:提供丰富多样内容的互动平台,未来将迎来更智能化发展

2025/03/30

2
jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

2025/03/26

3
黄金网站APP大全免费:推荐几款功能强大且实用的黄金行情APP

黄金网站APP大全免费:推荐几款功能强大且实用的黄金行情APP

2025/03/28

4
沈阳45岁阿姨使用尿素乳膏后皮肤改善:多次使用效果如何?社会多群体看法分享

沈阳45岁阿姨使用尿素乳膏后皮肤改善:多次使用效果如何?社会多群体看法分享

2025/04/01

5
“九·幺9.1”是什么?它如何影响现代社会的文化与趋势?

“九·幺9.1”是什么?它如何影响现代社会的文化与趋势?

2025/03/28

6
海角社区如何选择最佳浏览器:为什么Chrome、Firefox、Edge、Safari各有优缺点?

海角社区如何选择最佳浏览器:为什么Chrome、Firefox、Edge、Safari各有优缺点?

2025/04/01

7
四川嫩小槡的美味与营养价值:为何它成为食客心中的无可替代之选?

四川嫩小槡的美味与营养价值:为何它成为食客心中的无可替代之选?

2025/03/29

8
如何安全下载安装黄色软件?了解风险与保障措施:避免隐私泄露与法律问题

如何安全下载安装黄色软件?了解风险与保障措施:避免隐私泄露与法律问题

2025/03/28

9
17直播:平台创新与多元化内容推动直播行业发展

17直播:平台创新与多元化内容推动直播行业发展

2025/03/28

10
TikTok 将关闭“Instagram 竞品”TikTok Notes,引导用户改用同门平台 Lemon8

TikTok 将关闭“Instagram 竞品”TikTok Notes,引导用户改用同门平台 Lemon8

2025/04/06