首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

作者头像
机器之心
发布于 2023-05-31 07:47:09
发布于 2023-05-31 07:47:09
3660
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:蛋酱

2023 年的 AI 领域,难以回避「大模型」这个关键词。

半年前 ChatGPT 的发布,在海内外引发了一场大模型之战。多家公司加紧研发,纷纷推出类 ChatGPT 产品,或是宣传要打造「中国的 OpenAI」。

有这样一家公司,却以低调的方式走在了研发和落地的前列。

今年三月初,国产 AI 模型「元乘象 ChatImg」推出「图片对话」功能,不仅支持文字聊天,还能看懂图片上的内容并根据图片内容回答问题。这一多模态对话能力的开放,甚至早于 OpenAI。

一周之后,震撼全球的 GPT-4 发布,同样增加了多模态能力。或许是受到算力成本的限制,这一功能至今仍未对公众开放。

与此同时,我们可以再往前想一步:除了图像输入之外,多模态对话大模型能不能提供优秀的语音输入或者视频输入功能?何时才能变得大众可用?

现在,你已经可以在全新升级后的「元乘象 ChatImg」上体验到这些功能。

在微信公众号「元乘象」的菜单栏,基于 ChatImg 2.0 的「元乘象 ChatImg」各种新能力已开放测试,用户可直接点击进入应用页面。

元乘象 CEO 高一钊介绍说,根据多模态对话数据集(LLaVa)的公开评测,ChatImg2.0 的中文和英文多模态对话能力均超过了目前最好的开源模型。

具体而言,评测给定了 90 个问题,将问题、图像描述、待测模型回答结果和 GPT-4 回答结果一起输入 GPT-3.5,让 GPT-3.5 对比两个回答,分别给出分数(0-10 分),最终的打分是 90 个问题上的总分:

GPT-4 的回答结果是使用 GPT-4 的纯文本版本基于给定的图像描述和目标检测信息作答的,没有真正看到图像。* 代表待测模型针对测试集中的中文问题,绝大部分是用英文回答的,需要提前用 GPT3.5 翻译成中文。

上手测试

ChatImg 2.0 新增了三项重点功能,分别是「语音交互」、「视频输入」、「发现」。

基于这些最新功能,机器之心也上手测试了一番,让我们来看看结果。

首先是「语音交互」,ChatImg 2.0 可以判断出说话人的意图,并及时地回复语音中提出的问题:

然后,机器之心输入了一段八秒的视频,ChatImg 2.0 可以完整地描述视频内容细节:

大胆设想,如果你有一段主题、人物元素属于未知的视频,或许可以借助这个功能来找到答案。

此外,ChatImg 2.0 的「发现」页面提供了多种玩法,用户能够选择自己需要的对话模式,让交互变得更加简单了。

比如,这里机器之心选择了「穿搭建议」,ChatImg 2.0 会迅速给出关于户外环境下的推荐衣着:

让多模态大模型落到行业中去

ChatImg 2.0 的背后,正是 AI 领域的明星初创公司「智子引擎」,近日刚刚宣布完成千万元的天使轮融资。

智子引擎公司 CEO 为中国人民大学高瓴人工智能学院的 90 后博士生高一钊,导师为卢志武,目前卢志武教授也在智子引擎公司担任顾问一职。

早在 2020 年,二人就开启了多模态大模型研发之路。卢志武教授曾主导设计了首个公开的中文通用图文预训练模型文澜 BriVL,并发表于 Nature Communications。该模型经过 6.5 亿弱相关中文图文对的预训练,学习到独特的中文语义理解能力并能很好地将中文语义与视觉信息联系起来,尤其擅长读取中文独有的含蓄语义与图片中的抽象概念。高一钊也深度参与了文澜 BriVL 大模型的研究工作。

当时,多模态大模型尚未如今天一般受到高度关注,但卢志武教授和高一钊却看到了其中蕴含的机遇。这些经验积累,也为 ChatImg 2.0 的打造奠定了理论和实践两方面的深厚基础。

高一钊表示,ChatImg 的诞生恰逢其时,AIGC 在 2022 年爆火,不管是学界还是业界,都开始对生成类大模型产生浓厚的兴趣。特别是在 ChatGPT 发布之后,这种兴趣为大模型领域创业营造了优越的环境。

不过,与市面上的很多 C 端产品不同,团队更希望 ChatImg 扎根到具体的行业当中,去解决 B 端的实际问题。

在传统的创业思路中,可能已经有了比较成熟、清晰的技术路线,再结合市场需求去找商业模式。而今天的大模型算是一种「新的东西」,对于 ChatImg 的创业过程来说,团队则更多去考虑模型本身的能力和产业化方法论,探索技术落地的更多可能。

「如果 ChatImg 被验证在某个行业真的有用、能够受到产业领域的认可,或许会比融到钱更让我们激动。这个事情可以做得很大,相当于 AI 真正颠覆了一个行业。」高一钊表示。

就在 ChatImg 2.0 发布的同一天,这个愿景迈出了重要一步:由智子引擎与软通智慧共同打造的基于多模态大模型 ChatImg 的新型城市治理云「GPT-Creator2.0」正式发布。

智子引擎和软通动力合作签约。

其中,元乘象 ChatImg 提供了中国最领先的多模态大模型,软通智慧提供了城市场景、城市数据和私有化部署及专训,双方的目标是将事件覆盖度及识别准确度提高到 90% 以上、系统部署复杂度降低 50% 以上,以及巡查人员工作量减少到一半。

此外,智子引擎团队联合北京理工大学张伟民教授团队共同打造了一款智能机器人「小象」,为 ChatImg 装上了「身体」。

高一钊表示,多模态通用生成模型有非常广阔的落地应用前景,包括社会治理、实体机器人等落地场景均值得进一步探索。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
国产软硬件龙芯系列迅为2K1000开发板配置 nand flash
更新包含了开发环境搭建、系统编译与烧写和pmon基础知识、启动流程分析、网络加载系统、烧写系统到nand以及新增pmon 移植教程、新增pmon下操作GPIO章节和pmon下Ejtag使用章节等。
用户9167207
2022/04/12
1K0
国产软硬件龙芯系列迅为2K1000开发板配置 nand flash
迅为2K1000龙芯开发板pmon 下操作 GPIO
我们可以来学习如何在 pmon 下操作 gpio 了, 为什么要把这个需求单独拿出来讲呢? 因为有的时候我们做了一款产品, 在特定的环境下需要让 GPIO 在上电时就是就保证是一个确定的电平, 如高电平或者低电平。 Uboot 上这些资料非常的多, 所以我们别的板子对于这个需求就没单独拿出来给大家讲, 但是龙芯用的是 pmon, pmon 上相关的资料太少了, 所以有必要单独作为一章给大家讲解。
用户9167207
2022/06/02
7840
迅为2K1000龙芯开发板pmon 下操作 GPIO
【迅为干货】龙芯2k1000开发板opencv 测试
采用龙芯2K1000处理器集成2个64位GS264处理器核,主频1GHz,以及各种系统IO接口。
用户9167207
2022/06/10
6080
【迅为干货】龙芯2k1000开发板opencv 测试
迅为LS2k1000龙芯国产双核开发板烧写系统到 U 盘
龙芯的系统可以存放在 Nand Flash,SD 卡,U 盘,固态或者是网络加载,迅为的龙芯开发板核心板默认没有焊接 Nand Flash,是将文件系统存储在底板的固态硬盘上,这一章节我们将系统烧写到 U 盘,也可以称之为 U 盘启动。
用户9167207
2021/11/24
1.2K0
迅为LS2k1000龙芯国产双核开发板烧写系统到 U 盘
龙芯ls2k1000开发板移植rt-thread笔记
本文主要针对龙芯2k1000的龙芯派的开发板进行rt-thread移植,通过这篇文章,基本上掌握rt-thread对于一个新的体系架构上的移植过程,同时也可以很好的掌握mips64体系架构上的相关知识,同时熟悉使用龙芯派2k1000。
bigmagic
2020/05/08
3.2K0
龙芯ls2k1000开发板移植rt-thread笔记
迅为2K1000开发板龙芯平台Ejtag 单步调试 PMON 的汇编阶段
在 9.6 小节中,我们在汇编节点实现了 led 闪烁的功能,如果您自己写的程序没有成功,我们该如何调 试呢?就可以利用 Ejtag 仿真器进行单步调试。
用户9167207
2022/03/21
7020
迅为2K1000开发板龙芯平台Ejtag 单步调试 PMON 的汇编阶段
迅为2K1000龙芯开发板-pmon 下常用命令
进入到 pmon 命令行下我们是开机后通过按键盘上的 C 按键进去的,进到命令行以后,我们就可以使
用户6335423
2021/11/29
6750
迅为2K1000龙芯开发板-pmon 下常用命令
「干货」基于TMS320C6678开发板,ZYNQ Linux应用案例开发手册分享
本篇文章与大家分享基于TMS320C6678开发板的ZYNQ Linux应用案例开发测试分享,内容包含有开发案例基础说明、Linux常用开发案例和Python开发案例,后续还将分享更多ZYNQ端、DSP端、DSP+ZYNQ端的通信开发测试案例等,欢迎大家多多关注。
创龙科技Tronlong
2022/07/25
1.1K0
「干货」基于TMS320C6678开发板,ZYNQ Linux应用案例开发手册分享
i.MX6ULL嵌入式Linux开发1——uboot移植初探
本系列教程以「i.MX6ULL」处理器的ARM开发板为实验基础,学习记录嵌入式Linux开发的各种知识与经验,主要内容包括嵌入式Linux移植,嵌入式Linux驱动开发,嵌入式Linux应用开发等。
xxpcb
2021/07/20
2.8K0
全国产!瑞芯微 RK3576 ARM 八核 2.2GHz 工业开发板—Linux应用开发手册
本文涉及的开发案例位于产品资料“4-软件资料\Demo\”路径下的base-demos和python-demos目录。
创龙科技Tronlong
2025/06/25
1570
全国产!瑞芯微 RK3576 ARM 八核 2.2GHz 工业开发板—Linux应用开发手册
嵌入式测试手册——基于NXP iMX6ULL开发板(2)
基于测试板卡:创龙科技TLIMX6U-EVM是一款基于NXP i.MX 6ULL的ARM Cortex-A7高性能低功耗处理器设计的评估板,由核心板和评估底板组成。核心板经过专业的PCB Layout和高低温测试验证,稳定可靠,可满足各种工业应用环境。
创龙科技Tronlong
2023/05/04
1.6K0
嵌入式测试手册——基于NXP iMX6ULL开发板(2)
IMX8开发板Ubuntu20系统下外设界面功能测试-迅为i.MX8MM
i.MX8MM开发板采用四核Cortex-a53,单核cortex-m4,多达五个内核,主频高达,1.8GHz,开发板提供强大音视频处理能力,8路PDM接口,5路SAI接口,2路Speaker。支持H264,VP8格式的视频编码,H264,H265,VP8,VP9视频硬解码,最大支持1080P,并提供相关历程。
用户9167207
2022/06/01
1.4K0
IMX8开发板Ubuntu20系统下外设界面功能测试-迅为i.MX8MM
迅为国产RK3568开发板Android移植 LCD 屏幕
rk3568 芯片非常强大,可以支持的屏幕接口有很多,显示接口支持可是非常丰富的,
用户9167207
2022/04/13
3.7K0
迅为国产RK3568开发板Android移植 LCD 屏幕
迅为RK3588S开发板多屏同显多屏异显多屏异触
迅为电子RK3588 S开发板最多可以支持 7 个屏幕显示,这主要取决于 RK3588 芯片内置了 VOP 控制器, 支持四路视频同显或异显,可有效提高行业定制的拓展性。本章节我们将介绍在 RK3588S 的 Android12 系统上实现多屏显示。
用户10555372
2024/11/29
3640
迅为RK3588S开发板多屏同显多屏异显多屏异触
北京迅为- 2K1000龙芯开发板芯片特点
n 支持标准读、连续地址读、快速读、 双路 I/O 等 SPI Flash 读模式
用户9167207
2021/11/09
6160
北京迅为- 2K1000龙芯开发板芯片特点
迅为iTOP-3A5000龙芯开发板安装UOS操作系统
3A5000板卡采用全国产龙芯3A5000处理器,基于龙芯自主指令系统(LoongArch®),市面上龙芯3A5000主板价格都在上万元,可以说是非常贵了,
用户9167207
2023/02/14
1.1K0
迅为iTOP-3A5000龙芯开发板安装UOS操作系统
迅为RK3588开发板Android多屏显示之多屏同显和多屏异显
迅为RK3588开发板是一款低功耗、高性能的处理器,适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用,RK3588支持8K视频编解码,内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP,内置NPU,支持INT4/INT8/INT16/FP16混合运算能力,支持安卓12和、Debian11、Build root、Ubuntu20和22版本登系统。了解更多信息可点击迅为官网
用户10555372
2024/11/05
5150
迅为RK3588开发板Android多屏显示之多屏同显和多屏异显
迅为i.MX6Q开发板Openwrt 文件系统构建
配套资料在网盘资料的“iTOP-i.MX6 系列开发板(6Q,6D,6QPLUS)\4_iTOP-i.MX6 开发板资料汇总(不含光盘资料)\12_iTOP-i.MX6 开发板 buildroot 系统 OTA 升级” Cisco/Linksys 在 2003 年发布了 WRT54G 这款无线路由器,同年有人发现它的 IOS 是基于 Linux 的,然而Linux 是基于 GPL 许可证发布的,按照该许可证 Cisco 应该把 WRT54G 的 IOS 的源代码公开。
用户9167207
2022/04/19
1.4K0
迅为i.MX6Q开发板Openwrt 文件系统构建
【北京迅为】itop-3588开发板快速测试手册-银河麒麟系统功能测试
背光的亮度设置范围为(0--255),255 表示亮度最高,0 表示关闭背光亮度。进入系统
用户10555372
2024/09/09
2320
【北京迅为】itop-3588开发板快速测试手册-银河麒麟系统功能测试
全志T3开发板——嵌入式入门学习测试教程(4)
本文主要为嵌入式入门开发者的接口、网口等板卡基础快速测试,当初级学习的开发者拿到板卡,如何在最快时间内测试板卡正常?,接下来是等是否正常。继续测试教程(3)的测试板卡的SATA接口、USB接口读写、USB HOST模式测试、USB DEVICE模式、串口测试等测试部分,接下来是CAN测试、VGA接口、7英寸LCD触摸屏、10.4英寸LVDS触摸屏、7英寸MIPI触摸屏等测试部分是否正常。
创龙科技Tronlong
2022/03/31
3.6K0
全志T3开发板——嵌入式入门学习测试教程(4)
推荐阅读
相关推荐
国产软硬件龙芯系列迅为2K1000开发板配置 nand flash
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档