首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌Gemini2.0大模型加持,AI“贾维斯”如何接管人类电脑?

在科技飞速发展的今天,人工智能正以前所未有的速度改变着我们的生活和工作方式。其中,AI自主操控电脑成为了科技大厂们重点发力的战场,谷歌版“贾维斯”的即将问世,更是引发了广泛的关注。

Anthropic的Claude 3.5已经展示了自主看屏幕操作光标完成复杂任务的能力,而谷歌正在开发的Project Jarvis更是备受期待。这个由未来版Gemini 2.0驱动的项目,预计在12月亮相。它本质上是一个大动作模型,专门针对谷歌Chrome浏览器进行了优化。其操作原理与 Claude 3.5类似,通过截屏、解析屏幕内容,然后自动点击按钮或输入文本,从而帮助人们完成基于网页的日常任务,如收集研究信息、购物、预定航班等。不过,它在执行操作时中间会有几秒钟的思考时间,目前在终端设备中运行还不太现实,仍需在云上操作。

与此同时,微软团队也不甘示弱,悄悄放出了OmniParser。这是一个屏幕解析工具,可将截图转化为结构化数据,帮助AI精准理解用户意图。通过一系列的实验评估,如SeeAssign 任务、ScreenSpot评估、Mind2Web评估和AITW评估等,证明了OmniParser能够显著提高GPT-4V的性能,使其在处理各种任务时更加准确和高效。它不仅能准确识别用户界面中的可交互图标,还能理解屏幕截图中各种元素的语义,并将预期动作与屏幕上的相应区域关联起来。

OpenAI内部也有了AI智能体雏形,能够操控计算机完成在线订餐、自动查询解决编程难题等任务。包括苹果在内的科技巨头也在积极布局,预计在明年发布跨多个APP屏幕识别能力。

这些进展都表明,AI自主操控电脑的时代正在来临。然而,要实现像科幻作品中“贾维斯” 那样完美地接管人类电脑,还有很长的路要走。首先,模型需要具备强大的屏幕解析能力,这包括准确识别图标和理解语义等方面。其次,要解决在不同设备和平台上的兼容性问题,确保能够稳定运行。此外,还需要考虑数据安全和隐私保护等重要因素。

尽管面临诸多挑战,但科技的进步总是令人充满期待。谷歌Gemini 2.0加持的“贾维斯”以及其他厂商的相关研究成果,都为我们展示了未来人工智能的巨大潜力。也许在不久的将来,我们真的能够像钢铁侠一样,拥有一个智能的“贾维斯”来协助我们处理各种电脑任务,使我们的生活和工作变得更加便捷和高效。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7pMbaiBlahYv_EaTcBoR7Kg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券