Agent TARS是什么?
Agent TARS 是字节跳动开源的多模态 AI 代理工具,可视觉化解读网页并简化浏览器操作,同时与命令行和文件系统无缝集成。它具备代理工作流编排、全面工具支持(如浏览器、文件编辑、CLI 等)和实时Artifact展示等功能。目前支持 macOS,用户可通过配置模型与搜索设置后使用,并能分享对话线程。
Agent TARS的主要特点
- 多模态与多工具集成
- 支持浏览网页、集成命令行和文件系统,利用浏览器操作。
- 集成多种工具,包括搜索、文件编辑、命令行等。
- 支持 MCP(模型上下文协议),可扩展性强,能处理复杂工作流程。
- 任务规划与执行:通过 Agent 框架规划和执行复杂任务,如深度研究(Deep Research)和电脑操作员(Operator)功能。
- 人机协作:支持人机协作,用户可以通过输入框与 Agent 交互,甚至在工作过程中改变 Agent 的工作方向。
- 桌面客户端功能:提供桌面客户端,展示浏览器、多模态元素、会话管理、模型配置、对话流程和状态跟踪等功能。
- 分享功能:支持分享结果,包括本地打包为 HTML 文件和远程分享两种模式。
如何使用Agent TARS?
Agent TARS提供了开源版本和桌面客户端:
一、开源版本:
Agent TARS GitHub仓库:https://github.com/bytedance/UI-TARS-desktop/tree/main/apps/agent-tars
克隆GitHub开源代码,自行部署体验。
二、客户端版本:
1. 下载与安装
- 下载:访问 Agent TARS 官网,下载最新版本。
- 安装:
- macOS:将下载的 Agent TARS 应用程序拖到 Applications 文件夹中,并在系统设置中启用“可访问性”和“屏幕录制”权限。
- Windows:目前 Agent TARS 主要支持 macOS,Windows 支持正在开发中。
2. 配置
- 打开 Agent TARS 应用程序,点击左下角按钮进入设置页面。
- 模型配置:设置模型提供商和 API 密钥。如果使用 Azure OpenAI,还需设置
apiVersion
、deploymentName
和 endpoint
。
- 搜索配置:设置搜索提供商和 API 密钥。
3. 使用
- 输入任务:在输入框中输入任务指令,Agent TARS 会根据指令执行相应操作。
- 人机协作:在任务执行过程中,可以通过输入框与 Agent 交互,甚至改变任务方向。
- 分享结果:完成任务后,可以通过顶部菜单的分享按钮,选择本地打包为 HTML 或远程分享。
注意事项:Agent TARS 目前处于技术预览阶段,建议不要在生产环境中使用。