Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >硬刚 OpenAI ,谷歌推出最强多模态模型 Gemini1.5,支持100万上下文!

硬刚 OpenAI ,谷歌推出最强多模态模型 Gemini1.5,支持100万上下文!

作者头像
ConardLi
发布于 2024-02-22 00:38:26
发布于 2024-02-22 00:38:26
4460
举报
文章被收录于专栏:code秘密花园code秘密花园

大家好,我是 ConardLi

就在前几天,Open AI 推出了新一代视频模型 Sora,又引发了一次 AI 领域的震动,大家纷纷惊呼这是又一个里程碑的时刻。

然而,谷歌这次丝毫不落下风,火速发布了新一代多模态大模型 Gemini1.5

超长上下文

人工智能模型的 “上下文窗口” 由标记(tokens)组成,这是用于处理信息的基本构建单元。标记可以是单词、图像、视频、音频或代码的整个部分或子部分。模型的上下文窗口越大,它就能在给定的提示中接收并处理更多的信息 — 使其输出更一致、相关且有用。

新一代的 Gemini 在长上下文理解方面取得了重大的突破,可以处理的信息量持续运行多达 100 万个Token,实现了迄今为止任何大型基础模型中最长的上下文处理能力,毫不夸张地说,这已经全面碾压了 OpenAI 目前最强的 GPT-4 Turbo 模型。

另外,作为一个多模态模型,Gemini 1.5 可不只能处理文字,它还能够一次性处理其他大量的信息 — 包括 1 小时的视频、11 小时的音频、超过 30,000 行代码的代码库或超过 700,000 个单词。

100 万 Token 说的还是比较保守,它只是生产环境中稳定测试的结果,在谷歌的研究中,他们还成功测试了多达 1000 万个 Token 的上下文。

Gemini 1.5 构建在基于 TransformerMoE 架构的研究之上。传统的 Transformer 作为一个大型的神经网络运行,而 MoE 模型则被划分为更小的“专家”神经网络。根据给定的输入类型,MoE 模型学会了有选择性地仅激活其神经网络中最相关的专家路径,这种架构大幅提高了模型的效率。

事实如何呢?Gemini 真的有官方吹的这么牛逼吗?我们来用几个例子验证一下。

文本测试 - 30 万 Token

首先使用阿波罗 11 号登月任务报告(一个 402 页的 PDF 文件,大约 33 万个 Token)做了一个测试。

首先将阿波罗的 PDF 文件上传到 Google AI studio

然后提出问题:

“Find 3 comedic moments. List quotes from this transcript and emoji.”

“从这份记录中找出3个有趣的时刻,列出有趣的引述并附上 emoji 表情。”

模型给出的回应是三段引述,比如来自迈克尔·柯林斯的这一段:

“I’ll bet you a cup of coffee on it.”

“我敢跟你打赌一杯咖啡。”

然后我们回到这份原始报告中,可以发现模型准确找到了这个引述,并准确提取出这个有趣的时刻。

接着,我们再给出一个自己想象的一个抽象场景的描绘,然后问:

“What moment is this?”

“这是什么时刻?”

模型正确地确定这是尼尔·阿姆斯特朗在月球上的第一步。

这效果还是相当炸裂的。。。

这个例子很好的证明了,Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务报告的各种有趣的细节。

视频测试 - 60 万 Token

另外,Gemini 1.5 Pro 还能够对不同类型的模态执行高度复杂的理解和推理任务,包括视频。例如,当给定一部 44 分钟的无声喜剧片段,例如巴斯特·基顿的电影时,模型可以准确地分析各种情节要点和事件,甚至能够推理出电影中可能轻易被忽略的细节。

这部 44 分钟的电影总长度高达 60 万个 Token

首先在 Google AI Studio 中上传这部电影,然后提问:

“Find the moment when a piece of paper is removed from the person's pocket and tell me some key information on it, with the timecode.”

“找出电影中某人口袋里取出一张纸的时刻,并告诉我上面的一些关键信息,以及时间码。”

然后模型准确地找到了电影中纸片从某人口袋里被取出的那一刹那,并且准确地提取了上面的文字,而且时间也是准确的。

接下来,我们再给出一个比较抽象的图片场景描绘,并且询问发生这件事的时间点是什么?

模型返回的时间点是 15:34,然后我们查找这个时间码,发现这正是我们所寻找的场景。

代码测试 - 80 万 Token

下面我们再来验证一下它的代码理解能力。

我们提取了所有 Three.js 示例的代码,并将其合并为一个 txt 文件上传到 Google AI Studio 中 (超过 80 万个 Token)。

然后,我们要求模型找到三个学习角色动画的示例。

模型查找了数百个示例,并挑选出了三个,包括关于混合骨骼动画、关于姿态以及关于面部动画的形态目标的示例,这些都是根据我们的提示进行选择的合适内容。

接下来,我们询问了驱动 “Littlest Tokyo” 示例中的动画的是什么。可以看到,模型也成功地找到了那个演示,并解释了动画是在 gLTF 模型中嵌入的。

然后,我们想知道是否可以定制这段代码,因此我们询问:

“请展示一些添加滑块以控制动画速度的代码,并使用其他演示中的那种界面。”

然后模型也非常准确的给出了我们想要的答案,在修改后的版本则增加了一个小滑块,可以提高,降低甚至停止动画。

然后我们再测试一下多模态的能力,给他发送一张某个示例中的截图,我们没有对这个截图做任何说明,只是询问我们可以在哪里找到这个演示的代码:

然后,模型能够在数百个演示中找到与这幅图像匹配的那一个。

接下来,我们要求模型对场景进行一些更改,询问:“我如何修改代码以使地形更平坦?”

模型能够精确地找到一个特定的函数 “generate height”,并显示出需要调整的精确行。

给出的代码清晰地解释了这种变化是如何工作的,而在更新的版本中,地形确实如我们所请求的那样变得更加平坦。

最后

之前使用大模型最大的痛就是上下文限制太小了。。。

如今 Gemini 1.5 似乎真正突破了上下文的限制,这种感觉真的太爽了。

另外也不得不感叹 AI 的发展真的太快了...

对于谷歌最新的 Gemini 1.5 ,大家怎么看?欢迎在评论区留言。

参考:https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 code秘密花园 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
谷歌Gemini1.5火速上线:MoE架构,100万上下文
Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上,包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。
机器之心
2024/02/26
2320
谷歌Gemini1.5火速上线:MoE架构,100万上下文
谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录
就在刚刚,谷歌DeepMind首席科学家Jeff Dean,以及联创兼CEO的Demis Hassabis激动地宣布了最新一代多模态大模型——Gemini 1.5系列的诞生。
新智元
2024/02/26
3190
谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录
谷歌全新大模型突然发布!100万token完爆GPT-4,仅靠提示词就能学会新语言
Gemini 1.5,除了性能显著增强,还在长上下文理解方面取得突破,甚至能仅靠提示词学会一门训练数据中没有的新语言。
量子位
2024/02/22
2670
谷歌全新大模型突然发布!100万token完爆GPT-4,仅靠提示词就能学会新语言
《Google Gemini 1.5 Pro:MoE架构如何重塑AI性能与效率》
Google Gemini 1.5 Pro的诞生犹如一颗璀璨新星,吸引了无数目光。尤其是其采用的混合专家系统(MoE)架构扩展,为模型性能与推理效率带来了革命性的提升,在AI领域掀起了一阵讨论热潮。
程序员阿伟
2025/04/22
960
《Google Gemini 1.5 Pro:MoE架构如何重塑AI性能与效率》
深入浅出了解谷歌「Gemini大模型」发展历程
Google在2023年12月官宣了Gemini模型,随后2024年2月9日才宣布Gemini 1.0 Ultra正式对公众服务,并且开始收费。现在2024年2月14日就宣布了Gemini 1.5 Pro,史诗级多模态最强MoE首破100万极限上下文纪录!!!Gemini 1.5 Pro在数学、科学和推理方面的表现比Gemini 1.0 Ultra提高了28.9%,在多语言方面提高了22.3%,在编码方面提高了8.9%。此外,在视频理解和音频方面也取得了显著进步。不得不说这技术速度已经有点量级了,让我仍不住想要扒一扒Gemini的爆火路径!
朱晓霞
2024/02/26
1.4K0
深入浅出了解谷歌「Gemini大模型」发展历程
谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?
要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。
机器之心
2024/02/28
1960
谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?
Gemini Pro 1.5对外开放使用,最高支持1000万上下文
2023年12月,Google发布了Gemini系列大模型,包含3个不同参数规模的版本。其中,Gemini Ultra号称在MMLU评测上超过了GPT-4,并且在月初也将Bard更名为Gemini,开放了Gemini Ultra的付费使用。
德顺
2024/03/29
7680
谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora
跟OpenAI半小时的「小而美」发布会相比,谷歌显然准备得更加充分,当然,时间也相当之长……
新智元
2024/05/15
1590
谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora
谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索
5 月 15 日凌晨,一年一度的「科技界春晚」Google I/O 开发者大会正式开幕。长达 110 分钟的主 Keynote 提到了几次人工智能?谷歌自己统计了一下:
机器之心
2024/05/22
1740
谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索
谷歌Gemini时代来了!加固搜索护城河、赋能全家桶,Gemini 1.5 Pro升级至200万token
3 月中旬,谷歌宣布 Google I/O 定档北京时间 5 月 15 日凌晨 1 点。而当大会开幕时间临近,本应是讨论度最高的时候,「宿敌」OpenAI 却半路杀出,抢先一天,仅耗时 27 分钟就发布了颠覆性巨作 GPT-4o,将新一轮 AI 争霸带入了「Her 时代」。
HyperAI超神经
2024/05/15
4820
谷歌Gemini时代来了!加固搜索护城河、赋能全家桶,Gemini 1.5 Pro升级至200万token
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门
就在刚刚,Meta AI主管Yann LeCun证实:为了买英伟达GPU,Meta已经花了300亿美元,这个成本,已经超过了阿波罗登月计划!
新智元
2024/05/06
1270
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门
Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4
这不,Gabor Cselle就让Gemini 1.5去分析了那个著名的樱花雪景视频。
新智元
2024/02/26
1710
Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4
谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
今年 2 月,谷歌上线了多模态大模型 Gemini1.5,通过工程和基础设施优化、MoE 架构等策略大幅提升了性能和速度。拥有更长的上下文,更强推理能力,可以更好地处理跨模态内容。
机器之心
2024/05/22
5360
谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
关于谷歌多模态人工智能Gemini的一切
谷歌的Gemini是人工智能发展中的一个重要里程碑,标志着从单模态系统向更复杂的多模态模型的转变。
云云众生s
2024/03/28
6260
关于谷歌多模态人工智能Gemini的一切
断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型
3月26日深夜,谷歌正式发布了全新思考模型——Gemini 2.5 Pro。此前业界广泛流传的代号"Nebula"神秘模型(现已确认就是Gemini 2.5 Pro)终于揭开面纱。该模型一经面世,便登顶LMSYS Arena榜单,稳居断层第一的位置。
用户11203141
2025/03/29
1080
断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型
谷歌最强模型深夜来袭!Gemini2.5Pro发布即屠榜,附国内调用教程
【星云智能资讯】Gemini 2.5 Pro于近日重磅上线!这款专为复杂任务设计的”思考”型模型,凭借强大推理能力,一经推出便横扫各大权威榜单,以破纪录的成绩摘得多项桂冠,成为AI领域的焦点。
POLOAPI
2025/05/07
4340
谷歌最强模型深夜来袭!Gemini2.5Pro发布即屠榜,附国内调用教程
OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1
就在刚刚,谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣:新一代原生多模态模型Gemini 2.0 Flash正式发布!
新智元
2025/02/15
1080
OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1
[AI Google] I/O 2024大会上我们宣布的100件事情
I/O 2024 发生了很多事情!无论你对最新的 Gemini 应用更新感兴趣,对开发者即将推出的内容感到特别兴奋,还是迫不及待想尝试最新的生成式 AI 工具,这里几乎为每个人都提供了一些内容。不信?以下是我们在过去两天宣布的 100 件事情。
从零开始学AI
2024/05/28
3450
Google“绝地反击”OpenAI新模型GPT-4o
昨天被OpenAI的最新多模态大模型GPT-4o抢尽了风头,今天谷歌在I/O开发者大会上做出“绝地反击”,产品更新处处对标OpenAI。
数据猿
2024/05/17
1660
Google“绝地反击”OpenAI新模型GPT-4o
谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!
今年初,2.0 Flash Thinking Experimental在Google AI Studio更新,通过结合Flash的速度和增强的推理能力,进一步提升性能。
AI进修生
2025/02/06
9610
谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!
推荐阅读
谷歌Gemini1.5火速上线:MoE架构,100万上下文
2320
谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录
3190
谷歌全新大模型突然发布!100万token完爆GPT-4,仅靠提示词就能学会新语言
2670
《Google Gemini 1.5 Pro:MoE架构如何重塑AI性能与效率》
960
深入浅出了解谷歌「Gemini大模型」发展历程
1.4K0
谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?
1960
Gemini Pro 1.5对外开放使用,最高支持1000万上下文
7680
谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora
1590
谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索
1740
谷歌Gemini时代来了!加固搜索护城河、赋能全家桶,Gemini 1.5 Pro升级至200万token
4820
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门
1270
Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4
1710
谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
5360
关于谷歌多模态人工智能Gemini的一切
6260
断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型
1080
谷歌最强模型深夜来袭!Gemini2.5Pro发布即屠榜,附国内调用教程
4340
OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1
1080
[AI Google] I/O 2024大会上我们宣布的100件事情
3450
Google“绝地反击”OpenAI新模型GPT-4o
1660
谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!
9610
相关推荐
谷歌Gemini1.5火速上线:MoE架构,100万上下文
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档