Datawhale干货
作者:黄元帅,Datawhale成员
北京时间5月9日晚,第十二届国际学习表征会议(International Conference on Learning Representations,ICLR) 在奥地利维也纳展览会议中心举办。
ICLR由深度学习巨头、图灵奖获得者Yoshua Bengio 和 Yann LeCun 在2013年牵头发起,与ICML、NeurIPS 并称为机器学习领域水平最高的会议之一。本届ICLR在参展人数、展览规模、论文数量上均创新高。
作为本场大会的亮点之一,智谱AI与OpenAI、Meta、Google等行业巨头并列参展,智谱GLM大模型技术团队也受邀进行了名为《The ChatGLM's Road to AGI》的主旨演讲,回顾了国产自研大模型 ChatGLM 的演进之路,还阐述了GLM大模型面向AGI的三大技术趋势。
这是 中国大模型团队首度 登上 ICLR 主旨演讲环节,再次证明了其在全球人工智能领域的创新力和影响力。
ChatGLM的研发始于2019年,2020年底研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,同年利用MoE架构成功训练出收敛的万亿稀疏模型,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B并开源。迄今为止已公开超过 100个 项目的源代码。
智谱旨在提供一个比ChatGPT更优化的选择。
智谱致力于将其研发的语言模型GLM-130B、ChatGLM-6B等广泛开源,使全球开发者都能利用这些工具进行研究和开发,从而打造开发者生态,实现行业可持续发展。
ChatGLM-6B模型 累计四周 HuggingFace趋势榜第一,下载量达到了 1300万+ 。Github 6w+stars,显示了其在用户中的受欢迎程度。
2023年底,Hugging Face公布社区最受欢迎的人工智能组织,智谱大模型团队(thukeg)排名第五,是 唯一一个来自亚洲 的机构。
智谱AI不仅在现有技术上进行优化,也在探索AI技术的未来发展方向,尤其是在 模型整合 和 跨模态能力 方面。
其中包括开发视觉语言模型,这种模型能够结合视觉和语言信息,进行更复杂的推理和解答,从而在AI交互中提供更自然和直观的体验。
智谱大模型团队发布的CogVLM,是一个可训练的视觉专家模块,能够将大语言模型和视觉编码器之间的鸿沟填补起来。
你是否相信大型语言模型LLM有涌现能力?
智谱大模型团队指出,相比模型大小或训练计算量,智能涌现(Scaling Law)和预训练损失有更加紧密的联系。
AGI将意味着什么?在未来,大语言模型的不同应用,例如聊天、OCR识别等功能的第一步仍然是模态中的文本。即便未来将不同的模态——文本、图像、视频、音频混在一起。此后,将需要构建能在现实世界中提供帮助的虚拟助理,甚至是机器人。通过其与现实世界的互动和反馈,能够更有效地推进AGI的开发。
三支箭:GLM 4.5、 GLM-OS、 GLM-zero
智谱大模型团队详细介绍了他们在人工通用智能(AGI)方向上的最新进展和未来规划。
首先,团队正在不断改进 GLM-4.5,并计划推出更多的升级版本。这些版本将继续保持在大型语言模型的技术前沿。团队还致力于开发新的算法,特别是在本地多模态语言模型方面,这将允许文本和图像的结合训练。尽管目前的模型依然是不同系统的集成体,但未来的目标是开发一个能够安全地处理复杂任务的多模态语言模型。
接着,他们介绍了 GLM-OS ——一个以大模型为核心的中央计算系统。这个系统不仅包括自我反思和自我改进的机制,还采用人类的PDCA(计划-执行-检查-行动)模式,让模型能够进行自我反馈和自我提升。这种系统的设计允许它进行初步的规划,实验,并基于反馈进行调整和再规划,从而不断优化其性能。
最后,智谱大模型团队强调了他们自2019年以来一直在开发的 GLM-zero 项目的重要性。这个项目旨在探索模仿人类“无意识”学习的方式,即使在休息或睡眠时也能进行学习。目前,模型可以通过自我指导、自我反思和自我批评来自我学习。尽管这个项目还处于早期阶段并面临许多挑战,团队仍然致力于进一步的研究和开发。这是智谱GLM大模型团队 第一次向外界公开 这一技术趋势。
总之,智谱大模型团队正通过其先进的技术项目推动AI的极限,不仅追求技术的革新,同时也试图更深入地理解并模仿人类的认知和学习机制。
[1].Loss才是涌现的关键,而非模型参数 https://arxiv.org/pdf/2403.15796.pdf
[2].GLM-4的RLHF技术公开 https://arxiv.org/abs/2404.00934
[3].ChatGLM-Math:强化数学能力 https://arxiv.org/pdf/2404.02893.pdf
[4].AutoWebGLM:自动网页导航 Agent https://arxiv.org/pdf/2404.03648.pdf
[5].CogVLM:让模型带上视觉 https://arxiv.org/pdf/2312.08914.pdf
[6].CogAgent https://arxiv.org/pdf/2312.08914.pdf
[7].CogCOM:让多模态模型具有操作链 https://arxiv.org/pdf/2402.04236.pdf
[8].CogView3:更快、更精细的文生图模型 https://arxiv.org/pdf/2403.05121.pdf