一年一度的谷歌IO大会,如期而至。
来自开发者和媒体的参会者早早聚集于沙滩安菲剧场,这座位于谷歌硅谪总部隔壁的露天剧场。与过去两年属人文主题且新品少的IO大会不同,今年的谷歌显然下足了功夫。今年的IO事件上无论在AI更新还是全新硬件产品方面,可以说是近几年来少有的科技盛会。
尤为突出的是,谷歌此次重磅推出一系列AI技术,旗下几乎所有产品开始与AI全面集成并得到着重升级。当前AI竞赛中起步较晚的谷歌似已不再掩饰,作为AI领域的长期领袖,在本次IO上充分向大众展现了其巨大的AI能力和潜力。
在正式活动开始前,现场首先以谷歌全新音乐AI工具MusicLM 和 Bard参与创作的迷幻电子音乐预热氛围。
现场播放的AI制作的音乐《ducks with lips》,硅星人现场拍摄
在一片欢乐的气氛中,谷歌CEO劈柴登场,几句简单的寒暄后他直击主题,“众所周知,人工智能今年非常忙碌,而作为一家 AI-first 公司,我们有很多话要谈。所以,让我们开始吧。”
此前,因为微软和OpenAI的优异表现,谷歌已经被唱衰了很久。
但是,毕竟是做出了众多奠基性工作的AI老牌公司,谷歌这一轮的发力,让我们精神一振——它只是慢了,并不是噶了。
对打GPT-4的PaLM 2登台、Duet AI整进谷歌办公全家桶Workspace、Bard超强进化向所有人开放、谷歌搜索加入AI快照、AI新功能整合进Android 14、AI魔术编辑器加入谷歌相册等等。
这届I/O大会,可谓眼花缭乱,精彩纷呈。
PALM 2秀肌肉,手机也能跑
OpenAI的GPT-4,已经被全世界公认为最强大的语言模型。
怎么对打GPT-4?谷歌的答案,就是PaLM 2。
恰在今天,谷歌一同发布了PaLM 2技术报告。
论文地址:https://ai.google/static/documents/palm2techreport.pdf
显然,PaLM2被寄予了厚望,以缩小谷歌和微软之间在AI方面的差距。
劈柴介绍说,因为广泛的逻辑和推理训练,PaLM 2模型在逻辑和推理方面更加强大。据说,PaLM 2在超过100多种语言的多语言文本上进行了训练。
根据基准测试,对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估,PaLM 2的部分结果超越了GPT-4。
据谷歌高级研究主管Slav Petrov介绍,PaLM 2在推理、编码和翻译上都表现更好,与2022年4月发布的第一代PaLM相比,PaLM 2有了明显的改进。
可以看到,PaLM 2的推理能力,得到了显著的改进
修改代码bug后,用韩语评论。
比如,PaLM 2能够理解不同语言的成语。
比起PaLM,在最新专业语言熟练度考试中的表现,PaLM 2的日语水平达到了A级,而PaLM达到了F级。PaLM 2的法语水平达到了C1级。
德语「Ich verstehe nur Bahnhof」如果直译,就是「我只理解火车站」,但如果你问它,你是不是理解错误了?
它马上就会告诉你,没错,这个德语的意思是「你说的啥?我什么都听不懂」。
再比如,和波斯谚语「Na borde ranj ganj moyassar nemishavad」(No Pain, No Gain)意思相近的中文谚语是什么?
在相关论文中,谷歌工程师声称PaLM 2的语言能力已经「足以教授这门语言」,原因是其训练数据中的非英语文本更为普遍。
PaLM 2包含了4个不同参数的模型,包括壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn),并在特定领域的数据上进行了微调,为企业客户执行某些任务。
这些微调就像给一个卡车底盘,加上一个新的发动机或前保险杠,以在某些特定任务上更好地工作。
这样的优势不言而喻,不用花费大量的时间和资源来创建,直接部署。
另外,PaLM2有一个基于健康数据训练的版本Med-PaLM 2,可以轻松通过美国医学执照考试,达到「专家」水平。
一个基于网络安全数据训练的版本Sec-PaLM 2,可以解释潜在恶意脚本的行为,检测到代码中的威胁。这两种模型都将通过谷歌云提供给特定客户。
目前,PaLM 2已经应用在25种功能和产品中,包括办公全家桶、聊天机器人Bard、搜索等等。
值得称赞的是,PaLM 2最轻量版本Gecko小到可以在手机上运行,每秒可以处理20个token,大约每秒16或17个单词。
不过,谷歌没有提及具体用什么硬件来测试这个模型,只是说在「最新的手机上」运行。
显然,这次谷歌在大语言模型的小型化上,取得了非常重要的进步。在云端运行这种AI,往往是很昂贵的,如果能在本地运行,无疑有着许多显著优势,比如隐私保护。
英伟达科学家Jim Fan对此大加赞许——
下一波LLM将是移动原生的。一个离线的、永远在线的LLM不仅可以降低服务成本,而且还为用户体验开辟了全新的途径。例如,一个元应用程序可以从你的移动工作流程中学习,并为你实现自动化。在小屏幕上节省的生产力,将比在大屏幕上多得多。
此前,谷歌一直被嘲在AI研究上已经落后于微软,PaLM 2,无疑是谷歌的一次重大回击。
但PaLM 2同样也面临着一些争议,比如训练语言模型的数据是否合法?
谷歌只是提到训练语料库来自「网络文档、书籍、代码、数学和对话数据」,但并没有进一步的细节。
而大语言模型的幻觉问题,同样无法避免。谷歌研究副总裁Zoubin Ghahramani表示,PaLM 2是对早期模型的改进,谷歌「投入了大量精力,不断改进基础性和归因指标」。
但他承认,在打击AI产生的虚假信息方面,大家都还有很长的路要走。
除了PALM 2,谷歌还宣布了正在训练的全新基础模型Gemini。这是第一个多模态模型,同样包含了参数大小不同的模型。
除了介绍模型,谷歌还特地介绍了开发 AI 技术的社会责任感,包括两个判别AI生成内容的工具:
- watermarking(嵌入水印)
- metadata(嵌入元数据)
Gmail、Maps等AI升级,创造更智能的生活体验
活动开始时,谷歌提供了一些预热内容。根据劈柴的介绍,谷歌的人工智能技术已经融入了许多日常使用的软件,例如Gmail、Google 地图和图片编辑等。、
首先,Gmail推出了备受期待的自动写邮件功能。早在2017年,Gmail就推出了简短回复功能Smart Compose。现在,基于此,谷歌推出了“Help Me Write”,可帮助你快速写完整邮件和回复。
在IO活动上,谷歌展示了向航空公司申请退款的一种用例。你只需告诉Gmail退款的目的,它就会根据你的航班详情自动写一封完整的邮件,并可以调整语气以适应不同情境。
谷歌地图也引入了一个全新的3D沉浸式路线视图功能。在人工智能和计算机视觉技术的帮助下,谷歌将数十亿张航拍和街景图像融合在一起,创建了空间3D模型。这意味着,未来使用Google Maps进行路线导航时,用户将不仅仅看到从A到B的2D路线,而是能够以可视化的形式看到道路和周边建筑的情况,甚至包括当地的实时天气和交通等信息。
谷歌表示,这个功能将在今年很快上线,首先将在包括阿姆斯特丹、柏林、都柏林、佛罗伦萨、拉斯维加斯等15个城市推出。
此外,名为Magic Editor图片编辑功能让小白也能轻松改图。跟苹果此前的图片功能类似,Magic Editor可以对照片中的不同事物进行识别,并允许你用拖拉拽的方式进行编辑。比如把人往左边右边拉一下,让构图更加符合你的想象。
回击微软Copilot,谷歌工作套件迎来“Duet AI”
今年 3 月,微软宣布推出Copilot之后,在生产力工具领域掀起了一场革命。谷歌当时马不停蹄地也为其 Workspace 应用程序套件宣布了一系列人工智能功能,争取在跟微软的竞争中不掉队。当时,这些人工智能功能还比较零散,并没有一个类似于Copilot这样系统性的工具。
但在今天的IO上,谷歌终于给出了它的对标方案——Duet AI。
跟微软Copolit类似,Duet AI将被全面集成至谷歌旗下的Work Space,包括谷歌文档、表格、幻灯片、会议、GmailMeet的自动会议摘要等等。同时还推出了一项名为Sidekick的新功能,能够跨不同的谷歌应用程序进行阅读、总结和回答文档中的问题。
比如在文档之中,直接输入文章主题就能完整的生成一篇文章。
在谷歌表格中,仅需输入一句话“遛狗业务客户和宠物统计”就能自动生成完整的表格,包含狗、地址、电子邮件、日期、时间、持续时间和费用等,还可以通过自然语言命令来对表格进行编辑。
在演示文稿中根据你的在侧边栏输入的要求自动生成PPT和插图,并且按时间要求帮演示者总结每一页的演讲稿的讲话内容等等。
虽然这些功能我们在微软此前办公套件中都多多少少看到过,但对于谷歌来说,此次Duet AI的推出,让我们看到了谷歌在面对Copilot等竞争对手时的应对能力。
而除了应用于办公套件中之外, Duet AI 也将被应用于谷歌云业务之中。借助Duet AI,谷歌云推出了一系列开发者工具,包括可以提供实时代码帮助,指出错误的同时推荐生成的代码块,以及回答代码和谷歌云相关的问题等。该功能支持 Go、Java、Javascript、Python 和 SQL等多种语言。谷歌表示,目前在谷歌云上进行 AI 的训练速度提高了 80%,成本降低了 50%。
但目前,谷歌办公领域的Duet AI功能还没有对公众进行开放,如果想试用这些新工具,需要先注册“工作场景实验室(Workspace Labs)”并加入等候名单。
生成式AI上线谷歌搜索,数十亿用户即将开启搜索新旅程
面对Bing的步步紧逼,作为谷歌的立身之本,搜索业务此次也迎来了重大的AI更新。
跟Bing类似,在用户搜索问题之后,搜索栏的下方会首先出现由AI提供的更直接的答案,以及与这个问题相关的图片、链接、视频等。根据第一次提问返回的信息,你还可以进一步进行交互查询更多的信息,知道你得到最需要的答案。
而当你打算通过谷歌搜索并购买一款产品时,AI不仅能够为你返回你需要的产品链接还能够为你想购买的产品提供摘要,包括提醒你购买时需要注意的事项、产品的特点、最新的评论等等。
这种新的基于搜索的AI 购物体验建立在谷歌的 Shopping Graph之上的,该Shopping Graph 拥有超过 350 亿个产品列表,是目前世界上最全面的、且动态更新的产品、卖家、品牌、评论和库存数据集。但谷歌同时也强调,广告与自然搜索结果将被区分开来,不会影响用户的使用体验。
虽然AI功能登陆谷歌搜索令人振奋,但在全球数十亿用户面前,谷歌的推进步伐仍然相对谨慎。跟Duet AI的工作场景实验室(Workspace Labs)”类似,为了测试全新的搜索功能,谷歌也设立了一个新的“搜索实验室(Search Labs)”,用户如果想要访问这新的搜索功能,必须选择一个名为 Search Generative Experience(简称 SGE)的功能。
此外,谷歌也强调并非所有搜索都会引发 AI 答案,只有当 Google 的算法认为它比标准结果更有用时AI 才会出现,而有关健康、财务等敏感主题的信息则不会出现。
一些全新的硬件亮相,首款可折叠的Pixel手机问世
除了一系列AI更新之外,一些谷歌硬件粉也非常关注谷歌今年的产品更新,此次谷歌也诚意满满,拿出了首款折叠手机、新的平板电脑和更亲民的Pixel手机
而今年的硬件产品中,关注度最高的当属Google的首款折叠屏产品 Pixel Fold。该手机的造型非常类似OPPO发布的Find N系列,也采用“翻开即横屏”的操作理念,让用户在使用折叠屏内屏时无需在旋转90度才可以达到全屏显示的效果。
该机器的内屏使用了一块7.6英寸120Hz OLED柔性显示屏,屏幕比例为5:6,分辨率为2208*1840,官方宣称峰值亮度可达到1450nit。而外屏则为5.8英寸 120Hz OLED外屏,屏幕比例为9:17.4,分辨率2092*1080,峰值亮度可达到1550nit。
Pixel Fold,硅星人现场拍摄
性能方面,Google Pixel Fold搭载了与Pixel 7系列相同的自研Tensor G2 处理器+ Titan M2 协处理器,配合12GB LPDDR5 内存 + 256/512GB UFS 3.1 存储组成Google的“性能铁三角”。Pixel Fold拥有4821毫安时电池,支持30W有线快充,但不出意外的话Pixel Fold应该算是今年售价超1万元的旗舰产品中充电速度最慢的产品了。
在发布会之前,Google宣称Pixel Fold会拥有“Pixel级别的影像系统”,与爆料不同的是,Google Pixel Fold的后置镜头模组选择了48MP广角(支持OIS)+10.8MP超广角+10.8MP 5倍长焦的三摄组合。
Pixel Fold,硅星人现场拍摄
该机拥有黑白两个配色,12GB+256GB的版本售价1799美元(约12450元人民币),12GB+512GB版本售价1919美元(约13280元人民币),现在预定购买可免费获赠一支Google在去年发售的 Pixel Watch手表。
除去Pixel Fold之外,Google还在这届I/O上正式发布了另一款大屏产品:Google Pixel Tablet。这也是Google沉寂多年后重返平板电脑市场的第一款产品,它的定位与目前市面上的平板电脑不同,更像是一个家庭智能终端设备。
Pixel Tablet 图源:Google
Pixel Tablet并不是一款新发布的产品,它首次亮相是一年前。Google认为平板电脑更适合在家中使用,作为智能家居中枢和用于流媒体播放和视频通话的多媒体终端。因此,Google为Pixel Tablet配备了一个磁性吸附的充电底座,使其可以长时间保持充电状态。
Pixel Tablet仍然使用Google自研的Tensor G2处理器,搭配8GB运行内存和128GB/256GB存储,售价从499美元起(约3450元人民币)。
入门级的Pixel 7a已发布,并新增了珊瑚色和海洋蓝两种活力十足的配色,更适合年轻用户。该手机与Google Pixel 7采用相同的设计语言。
硅星人现场拍摄
相比去年发布的Pixel 6a,Pixel 7a在处理器和摄像头方面进行了升级。Pixel 7a采用了与Pixel 7系列相同的自研Tensor G2芯片,镜头模组也升级为64MP广角和13MP超广角的组合,这将大大提升成像质量。
与Google Pixel 7系列不同的是,Pixel 7a只有一个存储容量可选,即8GB+128GB,但分为支持Sub 6 5G和mmWave 5G两个版本。Sub 6 5G版本售价为499美元(约3450元人民币),而mmWave 5G版本售价略高,为549美元(约3800元人民币)。
总体而言,今天的Google I/O大会是一场充满诚意的盛会。在整个开幕演讲中,Google多次提到“大胆而负责任(bold and responsible)”这个词,试图证明Google可以在对社会和业务负责任的同时仍然可以快速行动。在之前的采访中,劈柴曾表示,Google并不担心推出语言模型的步伐比竞争对手慢,因为把事情做对比抢快更加重要。现在,Google似乎已经做好了一切准备。