社区首页 >专栏 >硬刚 OpenAI ，谷歌推出最强多模态模型 Gemini1.5，支持100万上下文！

硬刚 OpenAI ，谷歌推出最强多模态模型 Gemini1.5，支持100万上下文！

ConardLi

发布于 2024-02-22 00:38:26

4460

文章被收录于专栏：code秘密花园code秘密花园

大家好，我是 ConardLi。

就在前几天，Open AI 推出了新一代视频模型 Sora，又引发了一次 AI 领域的震动，大家纷纷惊呼这是又一个里程碑的时刻。

然而，谷歌这次丝毫不落下风，火速发布了新一代多模态大模型 Gemini1.5。

超长上下文

人工智能模型的 “上下文窗口” 由标记（tokens）组成，这是用于处理信息的基本构建单元。标记可以是单词、图像、视频、音频或代码的整个部分或子部分。模型的上下文窗口越大，它就能在给定的提示中接收并处理更多的信息 — 使其输出更一致、相关且有用。

新一代的 Gemini 在长上下文理解方面取得了重大的突破，可以处理的信息量持续运行多达 100 万个Token，实现了迄今为止任何大型基础模型中最长的上下文处理能力，毫不夸张地说，这已经全面碾压了 OpenAI 目前最强的 GPT-4 Turbo 模型。

另外，作为一个多模态模型，Gemini 1.5 可不只能处理文字，它还能够一次性处理其他大量的信息 — 包括 1 小时的视频、11 小时的音频、超过 30,000 行代码的代码库或超过 700,000 个单词。

100 万 Token 说的还是比较保守，它只是生产环境中稳定测试的结果，在谷歌的研究中，他们还成功测试了多达 1000 万个 Token 的上下文。

Gemini 1.5 构建在基于 Transformer 和 MoE 架构的研究之上。传统的 Transformer 作为一个大型的神经网络运行，而 MoE 模型则被划分为更小的“专家”神经网络。根据给定的输入类型，MoE 模型学会了有选择性地仅激活其神经网络中最相关的专家路径，这种架构大幅提高了模型的效率。

事实如何呢？Gemini 真的有官方吹的这么牛逼吗？我们来用几个例子验证一下。

文本测试 - 30 万 Token

首先使用阿波罗 11 号登月任务报告（一个 402 页的 PDF 文件，大约 33 万个 Token）做了一个测试。

首先将阿波罗的 PDF 文件上传到 Google AI studio

然后提出问题：

“Find 3 comedic moments. List quotes from this transcript and emoji.”
“从这份记录中找出3个有趣的时刻，列出有趣的引述并附上 emoji 表情。”

模型给出的回应是三段引述，比如来自迈克尔·柯林斯的这一段：

“I’ll bet you a cup of coffee on it.”
“我敢跟你打赌一杯咖啡。”

然后我们回到这份原始报告中，可以发现模型准确找到了这个引述，并准确提取出这个有趣的时刻。

接着，我们再给出一个自己想象的一个抽象场景的描绘，然后问：

“What moment is this?”
“这是什么时刻？”

模型正确地确定这是尼尔·阿姆斯特朗在月球上的第一步。

这效果还是相当炸裂的。。。

这个例子很好的证明了，Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务报告的各种有趣的细节。

视频测试 - 60 万 Token

另外，Gemini 1.5 Pro 还能够对不同类型的模态执行高度复杂的理解和推理任务，包括视频。例如，当给定一部 44 分钟的无声喜剧片段，例如巴斯特·基顿的电影时，模型可以准确地分析各种情节要点和事件，甚至能够推理出电影中可能轻易被忽略的细节。

这部 44 分钟的电影总长度高达 60 万个 Token。

首先在 Google AI Studio 中上传这部电影，然后提问：

“Find the moment when a piece of paper is removed from the person's pocket and tell me some key information on it, with the timecode.”
“找出电影中某人口袋里取出一张纸的时刻，并告诉我上面的一些关键信息，以及时间码。”