开源链接在文末
前言:你还在手动重复劳动吗?
每天打开电脑,我们都在做着重复的事情:刷新网页、填写表单、截图保存、批量处理文件……这些看似简单的工作,一天累积下来就要消耗大量时间。
如果告诉你,现在的AI已经可以"看懂"你的屏幕,按照你的指令自动操作电脑,就像一个看不见的数字员工,你会怎么想?
这不是科幻电影,而是已经落地的现实。今天要分享的这个开源项目,就能让你的电脑真正"活"起来。
一、这个项目到底是啥?
简单说,这是一个多模态AI Agent框架,它可以:
🖥️ 看懂你的屏幕:通过视觉识别,理解界面元素
🤖 自动操作:模拟鼠标点击、键盘输入、滚动页面
🌐 跨平台支持:Windows、macOS、Linux都能用
🧠 自然语言交互:用中文描述任务,它就懂
更厉害的是,它提供了两种使用方式:
桌面应用:安装一个Electron应用,像普通软件一样用
命令行工具:适合开发者深度集成
二、核心功能拆解,看完你就会用
1. 桌面版:小白也能上手
安装步骤(超详细)
Windows用户:
# 前往Releases页面下载最新安装包# 双击安装,一路下一步# 首次运行可能需要给权限,允许就行Mac用户:
# 下载.dmg文件# 拖拽到Applications文件夹# 第一次启动可能需要右键打开(因为来自未知开发者)# 授予屏幕录制和辅助功能权限(系统设置-隐私与安全性)Linux用户:
# 下载AppImage或deb包# chmod +x UI-TARS.AppImage# ./UI-TARS.AppImage实战演示:三个典型场景
场景一:自动订票
打开应用,在输入框输入:
帮我在Priceline上预订9月1日从圣何塞到纽约最早的航班,以及9月6日最晚的返程航班
然后看着它自动打开浏览器,搜索航班,选择时间,填写信息,完成预订。整个过程就像有一个看不见的人在操作一样。
场景二:批量截图整理
把D盘/work/screenshot文件夹下的所有图片,按照日期分类,重命名为日期_原文件名格式,并移动到对应的月份文件夹中
它会自动打开文件管理器,识别文件,创建文件夹,重命名,移动文件。
场景三:网站数据抓取
打开淘宝,搜索"机械键盘",把前10个商品的标题、价格、销量保存到Excel表格中
自动打开网页,搜索,滚动页面,识别商品信息,记录数据。
2. 命令行版:开发者的利器
如果你是开发者,CLI版本会更灵活。
快速启动
# 使用npx直接运行(无需安装)npx @agent-tars/cli@latest # 或者全局安装npm install @agent-tars/cli@latest -g # 运行并指定模型agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key支持的模型提供商
Anthropic: Claude 3.7 Sonnet
火山引擎: 豆包1.5系列
其他: OpenAI、Google等主流模型都能用
高级功能演示
功能一:MCP工具集成
# 配置MCP服务器# 可以连接数据库、API、文件系统等外部工具 # 例如:调用绘图工具agent-tars --config my-config.yaml功能二:浏览器自动化
# 混合模式:结合视觉识别和DOM分析agent-tars --mode hybrid --url https://example.com功能三:批量任务
# 创建任务列表文件 tasks.txtagent-tars --batch tasks.txt3. 核心技术原理(给想深入的人看)
这个项目使用了多项前沿技术:
视觉识别:
基于UI-TARS-1.5多模态模型
能理解界面元素的语义(按钮、输入框、链接等)
支持跨平台界面识别
动作执行:
使用NutJS库模拟鼠标和键盘操作
支持坐标点击、元素定位、文本输入
精确控制操作延迟
事件流架构:
基于事件驱动的执行流程
支持实时状态反馈
可以中途调整任务
MCP协议:
Model Context Protocol集成
标准化工具调用接口
易于扩展自定义工具

三、实际应用场景大盘点
场景1:电商运营
需求:每天需要从多个电商平台抓取竞品价格,制作对比报表。
解决方案:
早上8点自动运行以下任务:
1. 打开京东搜索关键词A,记录前20个商品价格
2. 打开淘宝搜索关键词A,记录前20个商品价格
3. 打开拼多多搜索关键词A,记录前20个商品价格
4. 整理数据到Excel,生成价格走势图
5. 发送到指定邮箱
时间节省:原本需要2小时的工作,现在全自动完成,解放双手。
场景2:客服自动化
需求:客服每天要处理大量重复的查询,比如"怎么退款"、"多久到货"。
解决方案:
配置自动回复规则:
1. 监控客服工单系统
2. 识别常见问题类型
3. 自动匹配标准答案
4. 对于简单问题直接自动回复
5. 复杂问题标注后转人工
效率提升:自动处理70%的重复问题,客服只专注于复杂投诉。
场景3:内容创作
需求:自媒体人每天需要从多个渠道收集素材,整理成文章。
解决方案:
自动化流程:
1. 打开知乎,搜索指定话题,截取高赞回答
2. 打开微博,搜索话题热词,提取热门评论
3. 打开小红书,搜索相关笔记,保存图片
4. 整理所有素材到Notion模板
5. 使用AI工具生成大纲
创作加速:素材收集时间从3小时缩短到30分钟,把时间留给思考和写作。
场景4:财务报销
需求:员工报销需要整理大量发票,录入系统。
解决方案:
自动化处理:
1. 扫描指定文件夹的所有PDF/图片发票
2. 识别发票类型(餐饮、交通、住宿等)
3. 提取关键信息(金额、日期、发票号)
4. 按照财务模板填写Excel
5. 生成报销申请表
准确率提升:AI识别发票准确率高达95%以上,比人工更快更准。
场景5:软件测试
需求:测试工程师需要回归测试大量功能点。
解决方案:
自动化测试脚本:
1. 打开应用,执行登录流程
2. 依次测试A/B/C功能模块
3. 截图记录每个步骤的结果
4. 对比预期结果和实际结果
5. 生成测试报告
测试效率:一套完整的回归测试,从2天缩短到2小时。
四、进阶技巧:让它更聪明
1. 使用预设配置
项目提供了预设配置文件,可以快速切换不同的使用场景:
# developer-preset.yamlmodel: claude-3-7-sonnet-latestvisionMode: high-precisionactionSpeed: normalerrorHandling: retry-3-times2. 自定义动作序列
如果你有特定的工作流,可以编写自定义脚本:
// my-workflow.jsconst agent = new Agent({ provider: 'anthropic', model: 'claude-3-7-sonnet-latest'}); await agent.execute([ { type: 'click', selector: 'button#submit' }, { type: 'type', text: 'Hello World' }, { type: 'screenshot' }]);3. 集成到现有系统
作为开发者,你可以把它集成到你的应用中:
import { GUIAgent } from '@ui-tars/sdk'; const agent = new GUIAgent({ apiKey: 'your-key', modelProvider: 'anthropic'}); const result = await agent.run('帮我预订一张机票');五、常见问题解答
Q: 安全吗?会把我的数据传出去吗?
A: 这个问题问得好。数据是否外传取决于你使用的模型。如果用本地模型(比如通过Ollama部署),数据完全在本地。如果用云端模型(Claude、豆包等),数据会发送到对应的API服务器,所以处理敏感信息时要注意。
Q: 操作失误怎么办?
A: Agent有"撤销"机制,会自动记录操作历史,出现问题可以回滚。也可以设置"人工确认"模式,在执行关键操作前暂停等待你的确认。
Q: 能在服务器上用吗?
A: 可以!它支持无头模式,可以在Linux服务器上运行,通过命令行或API控制。适合批量任务和定时任务。
Q: 学习成本高吗?
A: 完全不高。桌面应用点点就会用,命令行也就是几条命令。复杂功能可以慢慢探索,不影响基础使用。
六、未来展望
这个项目还在快速迭代中,从更新日志看:
2025年11月刚发布了v0.3.0版本
支持多种工具的流式调用
新增Runtime Setting和耗时统计
Event Stream协议不断完善
未来的方向包括:
更强的多模态理解能力
更低的资源占用
更丰富的Operator类型
更好的跨平台兼容性
结语:AI Agent时代已经来了
从2022年ChatGPT横空出世,到现在的AI Agent可以真正"干活",AI正在从聊天工具变成生产力工具。
这个开源项目给了我们一个窗口,让我们看到未来的工作方式:人与AI协作,AI负责重复性工作,人类负责创造性思考。
与其担心被AI替代,不如学会使用AI工具,让它成为你的得力助手。
开源地址:
https://github.com/bytedance/UI-TARS-desktop