UI-TARS

与传统的模块化框架不同，UI-TARS 采用端到端方法实现任务自动化，无需预定义的工作流或手动规则。这种集成使模型能够处理多模态输入，包括文本、图像和交互，以建立对界面的连贯理解并实时准确响应动态变化。该系统能够适应各种 GUI 环境，使其成为跨不同平台自动界面交互的多功能解决方案。

UI-TARS 利用标准化操作框架，通过高级推理和规划执行复杂的多步骤任务。该模型结合了系统 1 和系统 2 推理，增强了这种能力，既可以快速直观地响应，也可以对更复杂的任务进行深思熟虑的高级规划。该模型分解任务、反思其操作和纠正错误的能力有助于其强大的任务执行能力。

UI-TARS 的主要优势之一是其训练方法，该方法结合了大规模注释和合成数据集，以增强其泛化和稳健性。这种方法使模型能够从现实世界的交互和精心设计的场景中学习，从而提高各种基于 GUI 的任务的性能。该模型有多种大小，包括 2B、7B 和 72B 参数，可满足不同的计算要求和用例。

UI-TARS 在各种基准测试中都表现出色。在 OSWorld 评估中，使用直接偏好优化 (DPO) 的 72B 参数版本在 50 步配置下获得了 24.6% 的最佳总体得分。该模型在 ScreenSpot 基准测试中也表现出色，7B 版本的准确率达到 89.5%。

UI-TARS 在设计时考虑到了灵活性，通过 vLLM 支持本地部署选项，让希望探索其功能或将其集成到自己项目中的研究人员和开发人员都可以使用它。 UI-TARS 的开源特性允许社区做出贡献和改进，从而有可能加速其在各个领域的发展和采用。

UI-TARS 的主要功能包括：

Subscribe to the AI Search Newsletter