Google发布的多模态人工智能模型Gemini 1.5,在长上下文理解、运算效率和多模态输入方面取得了显著进展。该模型可支持长达1小时的视频、11小时的音频文件、30k行代码和700k多的文字的一次性输入,为人工智能应用提供了更广泛的可能性。
多模态输入:Gemini 1.5支持文字和图片输入,甚至可以处理长达1小时的视频和11小时的音频文件。
长上下文理解:模型可以处理多达100万个tokens的上下文窗口,实现了迄今为止任何大型基础模型中最长的上下文窗口。
高效运算:通过Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4等研究,极大地提高了模型的运算效率。
应用场景广泛:模型可用于电影、电视剧制作,代码开发和文学讨论等多个领域。
领取专属 10元无门槛券
私享最新 技术干货