首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌 I/O 大会:AI 统治一切?重磅新品抢先看

谷歌正在拥抱人工智能,并且希望你我全都知道这一点!

在 I/O 开发者大会主题演讲中,谷歌足足提到了 120 多次“AI”!这也太夸张了吧!

然而,并非所有谷歌的 AI 新品都那么重要,有些只是小幅改进,还有一些是老调重弹。为了帮助大家辨别真假,我们整理了 Google I/O 2024 大会上发布的顶级 AI 新品和功能。

搜索结果页的生成式 AI

谷歌计划使用生成式 AI 来组织整个 Google 搜索结果页面。

使用 AI 组织的页面会是什么样?这取决于搜索查询。谷歌表示,这些页面可能会显示 AI 生成的评论摘要、来自社交媒体网站(比如 Reddit)的讨论摘要,以及 AI 生成的建议列表。

目前,谷歌计划在检测到用户正在寻找灵感(例如旅行计划)时显示 AI 增强型结果页面。不久之后,当用户搜索餐饮选项和食谱时,也会看到此类结果。未来还将支持电影、书籍、酒店、电子商务等搜索结果的 AI 增强显示。

Project Astra 和实时对话的 Gemini

谷歌正在改进其 AI 聊天机器人 Gemini,使其能够更好地理解周围的世界。

该公司展示了 Gemini 的一项新体验,名为“Gemini 实时对话”,可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。用户可以在 Gemini 说话时打断它,提出澄清问题,并且它会实时适应用户的说话方式。此外,Gemini 还可以通过智能手机摄像头拍摄的照片或视频查看并响应用户的周围环境。

“Gemini 实时对话”将于今年晚些时候推出,它可以回答有关智能手机摄像头可视范围(或最近可视范围)内的事物的问题,例如用户可能身处哪个社区,或者损坏的自行车零件的名称。“Gemini 实时对话”背后的技术创新部分源于 Project Astra,这是 DeepMind 内部的一项新计划,旨在创建利用 AI 的应用程序和“代理”,用于实时多模态理解。

谷歌 Veo

为了对抗 OpenAI 的 Sora,谷歌推出了 Veo,这是一款 AI 模型,可以在用户提供文本提示后生成大约一分钟长的 1080p 视频片段。

Veo 可以捕捉不同的视觉和电影风格,包括风景和延时摄影的镜头,还可以编辑和调整已经生成的片段。该模型可以根据提示(例如“平移”、“缩放”和“爆炸”等描述符)合理地理解相机运动和视觉特效。Veo 还稍微掌握了一些物理知识,例如流体动力学和重力,这些因素有助于其生成视频的逼真感。

Veo 还支持对视频特定区域进行蒙版编辑,并可以生成静态图像的视频,类似于 Stability AI 的 Stable Video 等生成模型。更令人着迷的是,给定一系列讲述故事的提示,Veo 可以生成更长的视频 - 超过一分钟的视频。

“询问照片”功能

谷歌相册将推出名为“询问照片”的实验性功能,该功能由谷歌的 Gemini 系列生成式 AI 模型提供支持,为其注入了 AI 的力量。

“询问照片”将于今年夏天晚些时候推出,它将允许用户使用自然语言查询来搜索他们的谷歌相册收藏,这些查询会利用 Gemini 对照片内容(和其他元数据)的理解能力。

例如,用户可以进行更广泛和复杂的搜索,例如找到“我访问过的每个国家公园中的最佳照片”,而不是搜索照片中的特定事物(例如“世贸中心一号”)。在该示例中,Gemini 将使用光线、模糊度和缺乏背景失真等信号来确定一组照片中哪张是“最佳”照片,并结合对其地理位置信息和日期的理解来返回相关的图像。

智能助理 Gmail

借助 Gemini,Gmail 用户很快就能搜索、摘要和草拟电子邮件,以及执行更复杂的电子邮件操作,例如帮助处理退货。

在 I/O 大会的一个演示中,谷歌展示了父母如何通过让 Gemini 总结学校最近发送的所有电子邮件来了解孩子在学校的情况。除了电子邮件正文之外,Gemini 还将分析附件(例如 PDF 文档),并提供包含关键点和操作项目的摘要。

用户可以通过 Gmail 侧边栏要求 Gemini 帮助他们整理电子邮件中的收据,甚至将它们放入谷歌云端硬盘文件夹中,或者从收据中提取信息并将其粘贴到电子表格中。如果用户经常执行此操作(例如商务旅行者跟踪费用),Gemini 还可以在未来提供自动工作流。

检测通话中的诈骗行为

谷歌预览了一项利用 AI 的功能,可在通话过程中提醒用户潜在的诈骗行为。该功能将内置于未来版本的 Android 系统中,它利用了 Google 最小的生成式 AI 模型 Gemini Nano,该模型可以完全在设备上运行,实时监听通话中的“常见诈骗对话模式”。

目前,该功能尚未公布具体发布时间。与许多此类功能一样,谷歌只是展示了 Gemini Nano 在未来可能实现的功能。不过,我们可以确定的是,该功能将是可选的,这很明智。虽然使用 Nano 意味着系统不会自动将音频上传到云端,但该系统仍然会监听用户的对话,这可能会带来潜在的隐私风险。

AI 辅助无障碍功能

谷歌正在通过一些生成式 AI 魔法增强其面向 Android 的 TalkBack 无障碍功能。

很快,TalkBack 将利用 Gemini Nano 为视力障碍和盲人用户创建对象的听觉描述。例如,TalkBack 可能会这样描述一件衣服:“一件黑白格纹连衣裙的特写镜头。裙子很短,有领子和长袖。腰部系着一条大蝴蝶结。”

据谷歌称,TalkBack 用户每天会遇到大约 90 张未标记的图像。使用 Nano,该系统将能够提供内容洞察,有可能无需人工输入此类信息。

总结

总而言之,Google I/O 2024 大会表明,谷歌正在将 AI 作为其产品和服务的主要驱动力。AI 已经渗透到谷歌的各个领域,从搜索和地图到助手和翻译。未来,AI 将在谷歌的产品和服务中发挥更加重要的作用。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OxO00nrApj9DMngY_p_aHvpg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券