说实话,现在不少大模型看着本事不小,聊天、推理样样都行,可真让它上手操作电脑,那表现是真的拉胯。我之前也试过几款类似的电脑操作工具,要么压根摸不透各类软件的操作逻辑,要么点来点去没实际反应,反倒越帮越忙。琢磨了好久才发现核心问题就两个:一是没有高质量的操作数据供它训练,练手的底子本身就差;二是操作出错后完全没有反馈机制,它根本不知道自己错在哪,自然也就没法针对性改进。
随着大模型的不断发展,大家对AI的期待早就不只是能答问题,更希望它能实打实解决工作里的实际问题——比如自动处理Excel表格、在浏览器中完成复杂的资料检索,甚至实现跨应用的协同操作。这种需求也推着基础模型从只会对话的“聊天搭子”,慢慢变成能动手做事的Agent(行动者)。
而Computer Use Agent(CUA,计算机操作智能体),就是这一转变过程中的关键里程碑。它打破了传统API的限制,构建出一种更原生的交互方式:能像人类一样,通过高分辨率视觉感知电脑屏幕,再用鼠标和键盘完成跨应用的长链路操作,甚至有可能成为下一代操作系统的核心交互入口。
而美团最新开源的EvoCUA,就精准解决了此前电脑操作AI的这些核心痛点,表现亮眼。
使用示例



Github地址:https://github.com/meituan/EvoCUA
Huggingface可下载对应模型:EvoCUA-32B、EvoCUA-8B
#美团 #能操作电脑的AI智能体 #智能体 #AI