与传统的模块化框架不同,UI-TARS 采用端到端方法实现任务自动化,无需预定义的工作流或手动规则。这种集成使模型能够处理多模态输入,包括文本、图像和交互,以建立对界面的连贯理解并实时准确响应动态变化。该系统能够适应各种 GUI 环境,使其成为跨不同平台自动界面交互的多功能解决方案。
UI-TARS 利用标准化操作框架,通过高级推理和规划执行复杂的多步骤任务。该模型结合了系统 1 和系统 2 推理,增强了这种能力,既可以快速直观地响应,也可以对更复杂的任务进行深思熟虑的高级规划。该模型分解任务、反思其操作和纠正错误的能力有助于其强大的任务执行能力。
UI-TARS 的主要优势之一是其训练方法,该方法结合了大规模注释和合成数据集,以增强其泛化和稳健性。这种方法使模型能够从现实世界的交互和精心设计的场景中学习,从而提高各种基于 GUI 的任务的性能。该模型有多种大小,包括 2B、7B 和 72B 参数,可满足不同的计算要求和用例。
UI-TARS 在各种基准测试中都表现出色。在 OSWorld 评估中,使用直接偏好优化 (DPO) 的 72B 参数版本在 50 步配置下获得了 24.6% 的最佳总体得分。该模型在 ScreenSpot 基准测试中也表现出色,7B 版本的准确率达到 89.5%。
UI-TARS 在设计时考虑到了灵活性,通过 vLLM 支持本地部署选项,让希望探索其功能或将其集成到自己项目中的研究人员和开发人员都可以使用它。 UI-TARS 的开源特性允许社区做出贡献和改进,从而有可能加速其在各个领域的发展和采用。
UI-TARS 的主要功能包括:
- 跨桌面、移动和 Web 平台与 GUI 无缝交互
- 集成感知、推理、基础和记忆的统一视觉语言模型
- 无需预定义工作流的端到端任务自动化
- 实时处理和响应动态 GUI 变化
- 结合快速直觉和深思熟虑的规划的高级推理能力
- 通过分解和反思执行多步骤任务
- 短期和长期记忆,提高决策能力
- 通过标准化操作框架提供跨平台支持
- 多种模型大小(2B、7B 和 72B 参数)可用于各种用途案例
- 在带注释和合成的数据集上进行训练,以增强泛化能力
- 支持使用 vLLM 进行本地部署
- 开源可用性,可供社区贡献和改进
- 在 OSWorld 和 ScreenSpot 等 GUI 交互基准测试中表现出色
- 持续监控并准确响应界面变化