紫东太初2.0：打破感知、认知、决策的交互屏障，引领全模态大模型新时代

文章来源：企鹅号 - AI炫科技

人工智能（AI）的发展离不开大模型的支撑，而大模型的发展也离不开多模态的拓展。多模态是指多种类型的数据，比如文本、图像、语音、视频等，它们可以相互补充和增强，提高AI的理解和表达能力。近日，由中国科学院自动化研究所研发的全球首个全模态大模型“紫东太初2.0”正式发布，它以更强的认知、理解、创作能力带来全新互动体验，从文本创作、多轮问答到图像生成、视频生成、3D理解、信号分析，打造中国通用AI智能底座，助推认知智能时代加速到来，向通用人工智能的目标更进一步。

“紫东太初2.0”是在千亿参数多模态大模型“紫东太初1.0”基础上升级打造的2.0版本，在语音、图像和文本三模态的基础上，加入了视频、信号、3D点云等模态数据，研究突破了认知增强的多模态关联等关键技术，具备全模态理解能力、生成能力和关联能力。

“紫东太初2.0”是基于华为全栈国产化软硬件平台昇腾AI与昇思MindSpore开发的，它采用了一种全新的学习框架——全模态多任务统一生成式学习框架，即全模态分组对齐、分组解码和联合解码的学习方式。这种框架可以让“紫东太初2.0”在没有专门训练过的任务上也能表现出色，并且可以在不同任务之间进行无缝切换。

“紫东太初2.0”的应用场景非常广泛，比如：

文本创作：它可以根据给定的主题或关键词自动撰写文章或故事，并且可以根据用户的反馈进行修改或优化。

多轮问答：它可以与用户进行自然和流畅的对话，并且可以根据用户的问题提供准确和有用的信息。

图像生成：它可以根据给定的文字或图像生成相应的图像，并且可以根据用户的要求进行调整或变换。

视频生成：它可以根据给定的文字或音频生成相应的视频，并且可以根据用户的要求进行剪辑或合成。

3D理解：它可以根据给定的3D点云数据进行分析和识别，并且可以根据用户的要求进行重建或转换。

信号分析：它可以根据给定的信号数据进行处理和解读，并且可以根据用户的要求进行预测或控制。

“紫东太初2.0”不仅可以在单一模态上表现出色，还可以在多模态之间进行关联和转换，打破感知、认知、决策的交互屏障，实现更类人的智能。比如：

它可以根据给定的语音生成相应的图像或视频，并且可以根据用户的要求进行修改或优化。

它可以根据给定的图像生成相应的文字或语音，并且可以根据用户的要求进行修改或优化。

它可以根据给定的文字生成相应的语音或图像，并且可以根据用户的要求进行修改或优化。

“紫东太初2.0”是中国科学院自动化研究所和武汉人工智能研究院联合打造的，是中国通用AI智能底座的重要组成部分。它已经在神经外科手术导航、短视频内容审核、医疗多模态鉴别诊断、交通违规图像研读等多领域应用，展现出强大的实用价值和社会效益。

“紫东太初2.0”是全模态大模型新时代的开创者，它以更强大的想象力和创造力，为人工智能的发展带来了新的可能性和机遇。它也是通用人工智能的一个重要里程碑，它让我们离实现人类梦想又近了一步。

发表于: 2023-06-212023-06-21 08:38:26
原文链接：https://kuaibao.qq.com/s/20230621A01CXX00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

紫东太初2.0：打破感知、认知、决策的交互屏障，引领全模态大模型新时代

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐