Apple发布新的MM1 AI模型
Apple的研究人员刚刚发表了一篇新论文,揭示了MM1,一组多模态AI模型,结合视觉和语言理解能力,实现了先进功能。
MM1模型是在精心策划的图像标题、图像文本数据和纯文本数据的混合训练下得到的。
最大的30B参数模型表现出了从少量示例中学习和在多个图像上进行推理的强大能力。
研究发现,模型的图像处理规模对性能影响最大。
MM1的基准测试与GPT-4V和Gemini Pro等最先进的多模态模型相竞争。
Apple在这个模型发布方面的细节和不张扬的态度与其典型的保密方式大不相同,这对于开源来说是一个巨大的胜利。随着一个功能强大的模型正式发布,Siri是否终于可以升级了?
Elon Musk的xAI开源了Grok-1
Elon Musk和xAI刚刚以开源的Apache 2.0许可证释放了其庞大的314B参数语言模型Grok-1的权重和架构。
Grok-1是一个专家混合模型,每个输入令牌只有25%的权重是活跃的,以实现更高效的计算。
发布的模型是2023年10月的原始预训练检查点,没有在任何特定任务上进行微调。
xAI在其GitHub代码库中提供了开发者入门的说明,并在Hugging Face上发布了该模型。
通过开源全球最大的LLM之一,xAI在Musk所认为的道德战役中践行实践。尽管Grok的能力尚未突破任何新的界限,但这一举措对于协作和透明的AI开发而言是又一重大胜利。AI研究
Google的VLOGGER让虚拟形象栩栩如生
Google的研究人员刚刚开发了VLOGGER,这是一种新的AI模型,可以通过一张静态图像和音频剪辑生成具有完整上半身动作的逼真说话虚拟形象视频。
VLOGGER创建了一个可控的形象,捕捉了相似性和动作。
该模型在一个包含80万个人们说话视频的大型多媒体数据集上进行了训练,每个视频都有面部和身体各部分的标签。
潜在应用包括用其他语言配音视频,为游戏或助手创建逼真的虚拟形象,以及实现低带宽视频聊天。
无论是为AI助手提供逼真感,实现跨语言实时视频配音,还是让我们能够以我们喜欢的虚拟形象进行视频聊天,像VLOGGER这样的模型指向了一个未来,在这个未来中,我们的物理和数字自我之间的界限以令人着迷的新方式模糊起来。
领取专属 10元无门槛券
私享最新 技术干货