在昨晚,谷歌CEO桑达尔·皮查伊官宣了一个令人振奋的消息:Google的全新AI大模型Gemini 1.0正式上线了!
Google这次真的下了一盘大棋。他们之前的Bard虽然初次亮相时出现了失误,但这次Gemini的推出,显然是Google在AI大模型领域下的一注重大赌注。
Gemini这款多模态AI模型,能够理解和处理各种信息,包括文本、代码、音频、图像甚至视频。在过去的大半年里,基于各种大模型的聊天机器人单月访问量已经超过 20 亿, 当然,ChatGPT毫无疑问问鼎冠军。
图片来自:The Information
能看、能说、能推理
Gemini有Ultra、Pro、Nano三个版本,可自动生成文本、代码、总结内容等,并能理解图片、音频和视频内容。
Gemini Ultra是功能最强版,能够完成高度复杂的任务,主要面向数据中心和企业级应用,可用于超复杂的推理、理解,但AI算力消耗也非常大。
Gemini Pro是性能最好的模型,适合扩展各种任务。它会为许多谷歌的AI服务提供动力,适用于大规模应用部署。
Gemini Nano是最高效的模型,可以在安卓设备上本地和离线运行,专为设备上的任务而设计。
暂且抛开繁杂的参数信息,先来用几个案例让你全面了解 Gemini 的能力。
当你随手画个鸭子,从曲线到鸭子成型,Gemini 都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。
同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。
闲着无聊,也可以和 Gemini 玩个游戏,你的手指指向哪个区域,Gemini 就能说出那个国家及其代表性的事物。
三仙归洞,猜猜纸球在哪个杯子下面,手速再快,也躲不过 Gemini 的「眼睛」。
拿到纱线却毫无头绪,别急,Gemini 聪明的大脑在看到纱线的那一刻,就已经把成品给你安排上,你只需要「照猫画虎」就好了。
识别图像还只是 Gemini 的基础水准,看到乐器,Gemini 还能生成符合环境氛围的音乐。
逻辑和谜题解决、图像序列分析、魔术技巧解释、记忆和逻辑,这些能力 Gemini 样样都有,样样精通,更齐全的案例视频就放在下面,欢迎观看 👇
Google 也发布了文字演示版本,若你不想看视频,可以访问查看 👇
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
或许是这个视频过于震撼,部分网友质疑 Google 这个视频存在「造假」的可能性,不过 Gemini 将很快在 Google AI Studio 中向公众开放,届时便能一辩真假。
Gemini VS GPT-4
谷歌声称 Gemini 的计算能力是 GPT-4 的 5 倍,因此训练速度更快。测试数据显示,Gemini Ultra的性能超过了大型语言模型研究和开发中广泛使用的32个学术基准中的30个。
谷歌在MMLU、DROP 等测试人工智能模型知识和解决问题能力的评测中,将Gemini与OpenAI的GPT-4进行深度评测,Gemini Ultra的能力全面超越了OpenAI的GPT-4,Gemini 是第一个在 MMLU(大规模多任务语言理解)方面超越人类专家的模型。
MMLU(大规模多任务语言理解)是测试 AI 模型知识和解决问题能力的最流行方式之一。Gemini Ultra 在该测试中以 90.0% 的准确率成为首个超越人类专家的模型,作为对比,GPT-4 只有 86.4% 的准确率。
新的 MMMU 基准测试包含了跨不同领域的多模态任务,对多模态大模型的检验程度更高,但超大杯 Gemini Ultra 同样取得了 59.4% 的高分。
代码是检验大模型水平的重要指标之一,Gemini 1.0 跨语言工作和推理复杂信息的能力是它的强项,能够理解诸如 Python、Java、C++ 等高质量代码。两年前,Google 推出了 AlphaCode,这是首个在编程比赛中达到竞争水平的 AI 代码生成系统。
thehiredai CEO Arman 大胆地作出预测:「Gemini AI 刚刚杀死了 ChatGPT!」
手机大模型
在此基础上,Google 官宣中杯大模型 Gemini Nano 从今天开始,将在 Pixel 8 Pro 上正式运行。
作为首款专为 Gemini Nano 设计的智能手机, Pixel 8 Pro 有两项专属的拓展功能将在后续的更新中加入:「记录器摘要」和「Gboard 智能回复」。
即使没有网络连接,记录器也可以获得手机对话录音、采访、演示等内容的摘要,强大的终端硬件是支撑这个功能的依托,而优化的侧端算法让「断网不断线」成为了可能。
智能回复功能很像我们挂断电话后的自动回复,但和传统的固定内容相比, Gemini Nano 可以识别来信的内容,根据不同的语句生成对应的回信,语言也会更加自然亲切,有种明星的运营团队在社交平台回复粉丝的即视感。
目前,Gemini Ultra 已经在内测中,并打算明年初推给开发者和企业用户,明年初,Google 还将推出 Bard Advanced,让更多的普通用户用上最强的 Gemini Ultra。
Google CEO Sundar Pichai 在发布 Gemini 时说到:
每一次技术转变都是推进科学发现、加速人类进步和改善生活的机会。我相信我们现在看到的与 AI 有关的转变将是我们一生中最深远的,远大于之前的移动或网络的转变。
整理自:新闻、APPSO