本文介绍了一个名为UI-TARS的开源多模态AI Agent框架,能让AI"看懂"屏幕并自动操作电脑,实现真正的数字员工功能。该项目支持跨平台(Windows/macOS/Linux),提供桌面应用和命令行两种使用方式。用户可通过自然语言指令完成自动订票、批量截图整理、网站数据抓取等重复性工作,广泛应用于电商运营、客服自动化、内容创作、财务报销和软件测试等领域。核心技术基于UI-TARS-1.5多模态模型和NutJS库,支持MCP协议扩展。该项目正在快速迭代中,未来将提升多模态理解能力和跨平台兼容性,帮助用户从重复劳动中解放出来,专注于创造性工作。