人工智能(AI)的发展离不开大模型的支撑,而大模型的发展也离不开多模态的拓展。多模态是指多种类型的数据,比如文本、图像、语音、视频等,它们可以相互补充和增强,提高AI的理解和表达能力。近日,由中国科学院自动化研究所研发的全球首个全模态大模型“紫东太初2.0”正式发布,它以更强的认知、理解、创作能力带来全新互动体验,从文本创作、多轮问答到图像生成、视频生成、3D理解、信号分析,打造中国通用AI智能底座,助推认知智能时代加速到来,向通用人工智能的目标更进一步。
“紫东太初2.0”是在千亿参数多模态大模型“紫东太初1.0”基础上升级打造的2.0版本,在语音、图像和文本三模态的基础上,加入了视频、信号、3D点云等模态数据,研究突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力。
“紫东太初2.0”是基于华为全栈国产化软硬件平台昇腾AI与昇思MindSpore开发的,它采用了一种全新的学习框架——全模态多任务统一生成式学习框架,即全模态分组对齐、分组解码和联合解码的学习方式。这种框架可以让“紫东太初2.0”在没有专门训练过的任务上也能表现出色,并且可以在不同任务之间进行无缝切换。
“紫东太初2.0”的应用场景非常广泛,比如:
文本创作:它可以根据给定的主题或关键词自动撰写文章或故事,并且可以根据用户的反馈进行修改或优化。
多轮问答:它可以与用户进行自然和流畅的对话,并且可以根据用户的问题提供准确和有用的信息。
图像生成:它可以根据给定的文字或图像生成相应的图像,并且可以根据用户的要求进行调整或变换。
视频生成:它可以根据给定的文字或音频生成相应的视频,并且可以根据用户的要求进行剪辑或合成。
3D理解:它可以根据给定的3D点云数据进行分析和识别,并且可以根据用户的要求进行重建或转换。
信号分析:它可以根据给定的信号数据进行处理和解读,并且可以根据用户的要求进行预测或控制。
“紫东太初2.0”不仅可以在单一模态上表现出色,还可以在多模态之间进行关联和转换,打破感知、认知、决策的交互屏障,实现更类人的智能。比如:
它可以根据给定的语音生成相应的图像或视频,并且可以根据用户的要求进行修改或优化。
它可以根据给定的图像生成相应的文字或语音,并且可以根据用户的要求进行修改或优化。
它可以根据给定的文字生成相应的语音或图像,并且可以根据用户的要求进行修改或优化。
“紫东太初2.0”是中国科学院自动化研究所和武汉人工智能研究院联合打造的,是中国通用AI智能底座的重要组成部分。它已经在神经外科手术导航、短视频内容审核、医疗多模态鉴别诊断、交通违规图像研读等多领域应用,展现出强大的实用价值和社会效益。
“紫东太初2.0”是全模态大模型新时代的开创者,它以更强大的想象力和创造力,为人工智能的发展带来了新的可能性和机遇。它也是通用人工智能的一个重要里程碑,它让我们离实现人类梦想又近了一步。
领取专属 10元无门槛券
私享最新 技术干货