前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >多模态认知计算

多模态认知计算

作者头像
一点人工一点智能
发布于 2022-12-27 02:30:29
发布于 2022-12-27 02:30:29
5871
举报

日常生活中,人类至少利用视觉,听觉等多种感官理解周围环境,通过整合多种感知模态,形成对事件的整体认识。为使机器更好地模仿人类的认知能力,多模态认知计算模拟人类的“联觉”(Synaesthesia),探索图像,视频,文本,语音等多模态输入的高效感知与综合理解手段,是人工 智能领域的重要研究内容,也是实现“通用人工智能”的关键之一。

近年来,随着多模态时空数据 的海量爆发和计算能力的快速提升,国内外学者提出了大量方法,以应对日益增长的多样化需求。然而,当前的多模态认知计算仍局限于人类表观能力的模仿,缺乏认知层面的理论依据。

本文从信息论角度出发,建立了认知过程的信息传递模型,结合信容 (Information Capacity) 概念,提出了多模态认知计算能够提高机器的信息提取能力这一观点,从理论上对多模态认知计算各项任务进 行了统一。进而,根据机器对多模态信息的认知模式,从多模态关联,跨模态生成和多模态协同这 三个方面对现有方法进行了梳理与总结,系统地分析了其中的关键问题与解决方案。最后,结合当前阶段人工智能的发展特点,重点思考多模态认知计算领域面临的难点与挑战,并对未来发展趋势进行了深入分析与展望。

01 引言

让机器像人类一样智能地感知周围环境并做出决策,是人工智能的目标之一。在对信息的处理模式上,人类与机器存在巨大差异。为构建模拟人类认知模式的智能系统,英国 Ulster 大学的研究者在 2003 年将“认知计算”(Cognitive Computing) 的概念引入信息领域,重点关注认知科学与传统的视音频,图像,文本等处理之间互相联系的机理和机制,并且开设了相应的教学课程。在本世纪初,X.Li 创立了 IEEE-SMC 认知计算技术委员会,当时为认知计算给出的目标是: “Cognitive Computing breaks the traditional boundary between neuroscience and computer science,and paves the way for machines that will have reasoning abilities analogous to a human brain。It’s an interdisciplinary research and application field,and uses methods from psychology,biology,signal processing,physics,information theory,mathematics,and statistics。The development of Cognitive Computing will cross-fertilize these other research areas with which it interacts。There are many open problems to be addressed and to be defined。This technical committee tackles these problems in both academia and industry,and focuses on new foundations/technologies that are intrinsic to Cognitive Computing1) .”十几年来,认知计算逐渐受到各领域学者的关注。

在现实生活中,人类利用视觉,听觉,触觉等多种感官认识世界,不同感官刺激交融形成统一的多感觉体验。这种多感官协作对于机器而言即为“多模态”。认知神经学研究[1] 表明,一类感官刺激可能会作用于其他感官通道,这种现象被称为“联觉”(Synaesthesia)。

2008 年,Li 等人在“Visual Music and Musical Vision[2]”一文中首次将联觉引入信息领域,并从信息度量角度计算多模态数据的关联,尝试性地探讨了“多模态认知计算”的理论及应用。

随着人工智能第三次发展高潮的影响逐渐深化,多模态认知计算迎来了新的发展机遇,成为航空航天,智能制造,医疗健康等重大领域共 同关注的研究课题,对推动我国人工智能战略发展具有重要意义。在国内,相应的研究和探索也有较 长的历史和积累,有很多顶尖的研究团队。

2008 年,国家自然科学基金委员会设立的重大研究计划 “视听觉信息的认知计算”,实施以来取得了丰硕成果。2017 年,国务院印发了《新一代人工智能发 展规划》,明确提出“建立大规模类脑智能计算的新模型和脑启发的认知计算模型”,研究“以自然 语言理解和图像图形为核心的认知计算理论和方法”。

当前,多模态认知计算研究已从学术牵引转化为需求牵引,在图像,视频,文本,语音等海量多模态数据和强大算力的支撑下,国内外各大知名企 业与研究机构纷纷加入此项研究中。然而,在蓬勃发展的背后,多模态认知计算的理论机理仍不明确。认知神经学家提出了大量理论与假设来刻画人类对多感知模态的认知过程。而在信息领域,多模态认知计算仍停留在人类认知的观察和模仿阶段,缺乏机理性解释与统一的学习理论框架。

本文尝试以认知为切入点,阐释多模态认知计算的理论意义。认知是人类从现实世界中提取并加工信息的过程,外界信息通过视,听,嗅,味,触等多种感知通道传送到大脑,对大脑皮层产生刺激。神经科学相关研究[3] 表明,多种感官刺激的联合作用会产生“整体大于局部之和”的效果。例如,在观看影视剧时,画面和声音的同时刺激会给人类带来深刻,全面的感受,也帮助人类更准确地理解影视内容。这种现象是如何产生的? 认知科学研究[4] 指出,人类在接收外界刺激时会选择性地关注其中的一部分。这种“注意力机制”作为人类认知能力的重要组成部分,有效提高了信息加工的效率。当影视画面与声音同步时,人类的注意力并不会被分散,而会集中在影视剧中发生的事件上,视觉与听觉感官同时得到了关注。

基于上述观察,本文提出以下假设:当同一事件引起多种感官的同步刺 激时,不同感官通道共享注意力,人类可以感知更多信息。从认知计算角度出发,本文利用信息论的理论对上述假设进行建模。信息论奠基人C。Shannon 在1948 年的文章“A Mathematical Theory of Communication”中提出了信息熵的概念,用其表示随机变量的不确定程度,为信息量的度量提供了解决方案。根据信息熵定义,假设事件空间 X 的概率分布已知,事件 x 的概率为 p(x),其所带来 的信息量为

事件的概率越小,其发生所提供的信息量越大。例如, 红色天空比蓝色天空出现的概率小,一般来说其信息量也就相对更大。同时,在不同认知任务中,事件的发生概率存在差异,提供的信息量也有所区别。例如,红色天空为气象学研究带来的信息量要高于其对心理学研究提供的信息量。对于给定认知任务 T,事件 x 提供的信息量为

从公式 (4) 中可看出,当注意力集中在模态密集的时空事件时,获取的信息量达到最大值。因此,个体可以利用多模态时空数据获取更多信息

近年来,注意力机制在计算机视觉自然语言处理等领域的广泛应用,证明了对特定事件的关注有助于提高机器的学习能力,而多模态学习的成功也印证了多模态时空数据联合方面的优势。因此,公式 (4) 中的模型可以尝试解释多模态认知计算的内在机理,刻画机器从数据中提取信息的过程。然而,是否获取到的信息量越大,机器就越接近人类的认知水平?

当前,M6[11] ,CLIP[12] 等通用多模态学习模型已经在特定任务上取得了接近于人类的效果。如表1所示,这些模型往往需要千万级的训练数据,与人类认知能力还存在很大差距。将单位数据的信息提供能力定义为“信容”(Information Capacity)[13] ,与此对应,机器的认知能力即为从单位数据获取最大信息量的能力:

其中 D 为事件空间 X 的数据量。因此,可以从三方面提升机器的认知能力:(1) 优化 A,即使机器 获得更大信息量; (2) 增大 I,即利用对于给定任务信息量更大的数据; (3) 减小 D,即减小数据量。利用尽可能少的数据实现信息量的最大化,即代表了更强的认知能力。因此,本文围绕以上三个共性 关键问题,以提升机器认知能力为核心,对多模态关联,跨模态生成和多模态协同三个基本任务进行了梳理,如图1所示。具体如下:(1) 多模态关联是提高 ρ 的基础。它通过挖掘不同子模态事件在空间,事件,语义层面的内在一致性,将子模态事件映射到统一的信息空间,实现多模态的对齐,感知与检索识别。通过多模态关联,可以挖掘不同模态间的对应关系,以进一步提升认知能力。(2) 跨模态生成通过增大 I,减小 D 来提升 ρ。它将信息以模态为载体进行传输,利用不同模态的差异性,对已知信息进行跨模态的合成与转换。在跨模态合成中,利用更加直观,易于理解的模态 对信息进行丰富和补充,增大 I。在跨模态转换中,寻找更加简洁的表达形式,在保留信息的同时,减 小 D,以此提升信息获取能力。(3) 多模态协同通过优化 A 以实现信息量 K 最大化。它利用不同模态间的关联与互补,探究高效,合理的模态间联合机制,优化 A。通过学习以图像,视频,文本,语音为代表的多模态数据的一致性表达,实现信息的融合与增强以提升在任务 T 上的性能.

反观人类认知,认知的提升离不开对现实世界的联想,推理,归纳与演绎,与多模态认知计算中 的关联,生成,协同对应。本文将人类与机器的认知学习统一为提高信息利用率的过程。随着人工智能的影响逐渐深化,多模态认知计算的研究向深度和广度飞速拓展。作为多模态认知计算的三条主 线,多模态关联,跨模态生成和多模态协同是提升机器认知能力的有效途径,已成为国内外科研人员密切关注的研究热点。本文对相关工作展开详尽的调研和介绍,系统性地梳理了多模态关联,跨模态 生成和多模态协同的历史沿革和发展现状,深入地讨论了多模态认知计算领域面临的机遇和挑战,并 对其未来的发展方向和路径进行了思考与展望。

本文的组织框架如下:第二节,介绍了多模态关联任务的发展现状,分为多模态对齐,多模态感知和多模态检索三个部分,并进行分析与讨论;第三节,介绍了跨模态生成任务中的跨模态合成和跨模态转换方法,并进行分析与讨论;第四节,从模态融合和联合学习两个方面介绍多模态协同任务,并进行分析与讨论;第五节,对多模态学习面临的挑战和未来发展趋势进行探讨与展望;第六节,围绕多模态认知计算中的开放问题展开设想;第七节,对全文进行总结。

02 多模态关联

多模态感知与学习,通常是通过对同一个实体或时空事件在不同模态空间内予以阐述或描述,从而得到不同模态的数据。例如,采用 RGB-D 相机对同一场景进行拍摄而得到 RGB 彩色图像描述和 Depth 深度距离描述;采用摄像机对说话人进行语音采集得到其说话内容的语音信息和相对应的唇部运动信息,这些多模态描述能够更全面的刻画同一客观实体的多维度信息,从而提升模型的理解与认知能力。由于不同模态在表征同一客观实体时所能获得的信息量是不同的,例如,在上述对说话信息表征时,语音获取的说话内容信息量一般要高于从视觉唇部获取的信息量。虽然不同模态所获得的信息量是不同,但是因为它们表述的是同一客观实体,因此其所获得的信息是存在较强关联关系 的,如发出不同的音素时,其唇部的视觉运动表现是不同的。因此,为了有效刻画多种模态信息间的关联,需要对不同模态所获得的信息量进行有效分析与对齐,进而实现高质量的多模态感知与学习。即在对不同模态所获取的信息量进行联合感知求和基础上,需进行高质量的信息关联与对齐,从而为后续的多模态感知与检索奠定基础。例如,对于模态 i 和 ˜i,基于不同模态所获得的信息量,通过特定函数 f(·),实现不同模态信息量的关联对应,即

通过优化不同模态所获取信息间的关联目标 f(·),实现不同模态间关联关系的获取。本节从多模态对齐,多模态关联和多模态检索三方面阐述多模态关联相关工作。其中,多模态对齐是一类基础性需求,如图像区域内容和文字词汇的语义对齐,视觉唇部运动与语音声素之间的时间对齐等。在对齐的基础上,通过最大化模态间关联满足多模态感知,检索等实际任务需求.

03 跨模态生成

正常状态下,人类的多通道感知和中枢思维系统使其具有天然的跨通道推理和生成能力。例如,阅读一段小说情节时脑海中会自然浮现相应的画面。参考这一现象,本文将多模态认知计算中跨模态生成任务的目标定义为赋予机器生成未知模态实体的能力。传统的机器生成任务通常在单一且固定的模态上进行,例如利用已知的一段对话生成后续情节[68] ,或利用已有图像合成一张新的图像[69] 。类比于此,跨模态生成是涉及多种不同模态信息的实体生成过程,利用多模态信息之间的一致性和补充性来生成新模态下的事物。从信息论的角度看,跨模态生成任务促使不同模态之间通过信息流动,提升个体在既定时空内可感知的信息量。假设已知某实体已知 m 个模态信息 {X1,X2,· · · ,Xm},跨 模态生成任务可以概括为

其中 Xp 是缺失待恢复的模态实体。随着自然语言处理,智能语音,计算机视觉等技术的快速发展,建立在文本,语音,图像,视频上的跨模态生成任务层出不穷,例如一句话生成图像[70] ,一段场景产生音频[71] 等。这些不同模态对信息表达方式的不同,对信息的传达能力有很大差异。在绝大多数人的认知世界中,一定时空和目标条件下文本,音频,图像,视频这些模态信号能传递的信息量是逐渐上升的。简单来说,同一事物的声音比文字能直观传达的信息要更加丰富,而图像相比声音更加直观一 些。大多数情况下,日常生活中广播比文字要更容易被多数人接纳;当看到一张狗的照片时就比听到这只狗的声音了解的更多;而动态的视频带给人类的感受要更加深刻。但同时,同一事物用信息量丰富的模态来描述时也占据更大的存储空间,带来信息处理效率上的负担。综合两方面因素,本文从认知计算的角度将跨模态生成任务的本质归纳为在多模态信息通道内提高机器认知能力的问题。进一步地,可以将该任务划分为提高信息量 I 和减小数据量 D 两种方式,即跨模态合成和跨模态转换两 大类。下面详细介绍这两类跨模态生成技术.

04 多模态协同

归纳和演绎是人类认知的重要功能。人类可以轻松自如地对视,听,嗅,味,触等多模态感知进行归纳融合,并进行联合演绎,以做不同的决策和动作。在多模态认知计算中,多模态协同是指协调两个或者两个以上的模态数据,互相配合完成多模态任务。为了实现更加复杂的任务并提升精度和泛化能力,多模态信息之间要相互融合,达到信息互补的目的。呼应前文,这本质上是对注意力 A 的优化:

进一步地,融合后的多模态信息要进行联合学习,以实现多模态信息对单一模态的超越,即

信息量的增加可以提高单模态任务的性能,也为开发创新性多模态任务提供了可能。从生物学角度来看,多模态协同和人类综合多种知觉作出反应是相似的。近年来,随着传感器技术,计算机硬件设备和深度学习技术的更新换代,多模态数据的获取,计算和应用也变得日新月异。同时,建立在视觉,声音和文本等模态上的多模态协同研也究取得长足发展。本章节重点总结了多模 态协同中的模态融合与联合学习方法。其中,模态融合分为前期,后期和混合融合策略,如图6所示。联合学习根据其目的不同分为提升单模态任务性能和解决新的挑战性问题。接下来,本章节将分别 进行介绍。

05 多模态认知计算的难点和未来发展趋势

近年来,深度学习技术在图像处理,自然语言处理等领域取得了长足的发展,推动着多模态认知计算向理论研究和工程任务的纵深发展。在数据形式快速迭代和应用需求多元化发展的背景下,多模态认知计算也面临新的问题和挑战。从宏观角度来看,前述所有任务都是围绕公式 (5) 中的数据 (D),信息量 (I) ,融合机制 (A) ,和任务 (T) 来提升机器认知能力 (ρ)。本章节将从以上四个方面对 多模态认知计算当前的难点进行剖析,并对未来的发展趋势进行展望和思考.

06 开放性问题讨论

6.1 人类认知与人工智能如何结合?

目前,多模态认知计算的发展如火如荼。大多数研究工作聚焦在人工智能领域,致力于对视听嗅 味触等多模态数据的分析,以完成各种复杂任务。

在过去的几十年来,人类的“联觉”,“知觉重塑” 和“多通道知觉”为多模态数据的关联、生成与融合提供了指导依据,开启了多模态认知计算研究的序章。但是,人类认知存在太多未知和不确定。人类认知是如何形成的? 其背后的机理是什么? 目前并不完全清楚。缺乏认知进一步指导的多模态认知计算,很容易陷入数据拟合的陷阱。

本文作者曾在视觉与学习青年学者研讨会 (VALSE) 上作为联合组织者发起过相关的线上 (2020) 和线下研讨会 (2022) ,聚焦上述问题,侧重从人类的多感官认知入手,探究当前多模态相关研究与其的区别与联系。未来,多模态认知计算将如何迈向认知? 人类具有高可靠及较强泛化性能的多模态感知能力,尤其是当部分感官能力缺失的情形下,能够通过其他感官对缺失的能力进行一定能出补充。认知神经科学家认为,这种现象的潜在生理学基础可能是不同感官在信息编码中存在一个高级别语义的自组织关联网络,该网络与特定模态类型无关,但是可以直接关联到不同模态中,从而实现高效的多模态感知。对于多模态认知计算而言,构建有效架构是提高多模态感知能力的关键一环。

本文认为,可构建以“元模态”为核心的模态交互网络,学习与特定模态类型无关的内在属性,从而最大化关联与对齐不同的模态语义内容。元模态指向一个紧致的低维空间,可以实现到不同模态空间的投影,从而具备更加泛化的表征能力.

6.2 多模态数据带来了什么?

近年来,结合多模态数据的人工智能确实取得了更好的性能表现。这显而易见,在合理的模型优 化方式下,输入信息的增加往往会得到更好的结果。但是,再深入思考一下,多模态数据到底带来了什么额外的信息,又是如何提升性能的呢?

实际上,多模态数据带来信息的同时,也带来了大量噪声和冗余,会出现信容降低的问题,增加模型学习压力。这会导致某些情况下,多模态数据的性能不如单一模态。

本文尝试从信息的角度给出如上问题的解释。多模态信息之间具有相似性与互补性。其中,相似性部分是各个模态信息的交集,即互信息,代表了从不同模态描述同一场景的不同方面。相似性部分对场景进行了更加综合地描述,可以达到“兼听则明”的效果,提升模型场景理解的鲁棒性。互补性部分是各个模态信息的并集,信息论里称为“联合熵”,代表了不同模态之间的差异性,也包含噪声部分。互补性部分是任一模态都不具备的,它对单一模态的感知能力进行了拓展,以获得更好的场景理解性能,达到模拟人类联觉的能力。

6.3 多模态认知计算面临哪些真实场景?

现有多模态认知计算研究大都集中在图像视频数据中,聚焦视听模态的分析。这主要得益于近年来智能手机的普及和社交网络的快速发展,使得图像视频数据爆炸式增长,传播方式也日趋便利。但是,真实世界的多模态感知面临更加复杂的情况,这里以机器人和临地安防为例。

机器人将是多模态认知计算的一个典型应用。机器人的目的是像人类一样去感知去思考。假设 一个机器人要在真实环境中进行多模态感知,首先,要对视听嗅味触传感器进行集成,目前针对前端传感器的研究明显不足。然后,感知要在三维空间中进行,而不再是视频画面中进行,这就要求具有三维感知能力。最后,感知是在动态环境中进行,会存在机器与环境,各个模态与环境,以及各个模态 之间的交互,这也是以后研究中需要重点考虑的。

临地安防 (Vicinagearth Security) 也为多模态认知计算提供了广阔的应用前景。随着低空空域资源的逐渐释放和海洋开发能力的全面提升,人工智能开始在涵盖低空,地上,水下的临地空间发挥 作用,涉及搜救,巡检等诸多安防问题。以智能搜救为例,无人机与地面无人设备的协同交互需要处理不同传感器产生的大量数据,多模态认知计算也成为解决此类任务的关键核心技术之一,需要与跨域智能交互,涉水光学等研究课题紧密结合。同时,临地安防对实时性和高效性的要求也对多模态认知计算提出了新的挑战。在未来,临地安防将成为多模态认知计算从理论走向应用的重要落地场景。

07 总结

信息领域的研究热点常常在获取—处理—反馈中迭代,尤其前两者。目前,深度学习等处理方法的发展如火如荼,下一个热点很可能是数据获取,那么多模态将会迈入新的发展阶段。

本文抛砖引玉,挂一漏万,回顾了多模态认知计算的发展历程,从理论,方法和趋势三个方面展开分析与思考。

首先,构建信息传递模型刻画了机器从事件空间中提取信息的过程,探讨了多模态认知计算的理论意义。然后,阐述了多模态关联,跨模态生成,多模态协同三个主线任务的理论联系,对各项任务进行了 统一。通过对现有方法的分析与对比,较为全面地展示了多模态认知计算的发展现状和关键技术。进而,结合当前人工智能的发展背景,从信息度量,融合机制,学习任务和数据获取等方面探讨了多模态认知计算面临的挑战,并讨论了未来值得探索的研究方向。最后,对多模态认知计算的开放性问题进行了一些设想。

实际上,人类能感知到的模态信息是有限的。人类仅可以看到 400-700nm 的可见 光,这是光谱中这很小的一部分; 只可以听到 20-20000Hz 的可闻声波,这也是声波很小的一部分。庆幸的是,借助各种先进的光电设备,我们感知到了可见光和可闻声波之外的更多信息。未来,随着感知能力的进一步提升,依托人类认知拓展物理感知边界,实现信息域和认知域的统一,是大势所趋。希望本文能够为提升智能光电设备的感知能力和推动多模态认知计算的理论研究提供参考和启发。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
咩咩……
咩咩……
回复回复1举报
推荐阅读
编辑精选文章
换一批
【计算机视觉】一、计算机视觉概述
  计算机视觉是人工智能的重要组成部分,是赋予机器自然视觉能力的学科,相当于是人工智能的大门。
Qomolangma
2024/07/30
5560
【计算机视觉】一、计算机视觉概述
大语言模型无法实现具身认知
Generating meaning: active inference and the scope and limits of passive AI
CreateAMind
2024/03/25
1660
大语言模型无法实现具身认知
戴琼海:深度学习遭遇瓶颈,全脑观测启发下一代AI算法
8月29日至30日,主题为“智周万物”的2020年中国人工智能大会(CCAI 2020)在位于江苏南京的新加坡·南京生态科技岛举办。
AI科技评论
2020/09/04
1.1K0
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
在人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。但是,它们真的能够像人类一样,洞悉图片中的深层含义吗?为了探讨多模型大模型与人类的差距,来自中科院深圳先进院,M-A-P,华中科技大学,零一万物,滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型(MLLMs)图像隐喻理解能力的综合性基准测试II-Bench。
zenRRan
2024/06/18
6340
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化
当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。
新智元
2025/04/11
1680
预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化
【孙富春】新一代机器人:云脑机器人
清华大学计算机科学与技术系;智能技术与系统国家重点实验室;清华信息科学与技术国家实验室 【孙富春】清华大学计算机科学与技术系教授,博士生导师,全国优秀博士论文奖和国家杰出青年基金获得者。兼任清华大学学
新智元
2018/03/13
1.4K0
【孙富春】新一代机器人:云脑机器人
从视音角度看多模态学习的过去与未来
作者丨卫雅珂、刘学旻 视觉和听觉在人类的沟通和场景理解中至关重要。为了模仿人类的感知能力,旨在探索视音模态的视音学习在近些年来已成为一个蓬勃发展的领域。本文是对由中国人民大学高瓴人工智能学院GeWu-Lab联合德克萨斯州大学达拉斯分校以及西北工业大学共同发布的最新视音学习综述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解读。 该综述首先分析了视音模态的认知科学基础,进而对近来的视音学习工作(近三百篇相
AI科技评论
2023/04/12
6420
从视音角度看多模态学习的过去与未来
【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来
28 日,阿里巴巴达摩院发布 2022 十大科技趋势。其中,“大模型参数竞赛进入冷静期,大小模型将在云边端协同进化”的断言,在 AI 圈备受关注。
深度学习技术前沿公众号博主
2021/12/30
6230
【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来
论智三易,串联通讯,贯通边缘,演进认知,汇于机器:听五位IEEE Fellow畅谈AI未来 | GAIR 2021
作为粤港澳大湾区的第一AI盛会,GAIR大会已成功举办五届,留下众多精彩、经典和令人惊叹的瞬间。GAIR 2021则延续以往豪华阵容,以1场主旨论坛、2场行业峰会、9场高峰论坛,涵盖自动驾驶、安防、集成电路、医疗、元宇宙、碳中和、隐私计算、新消费等热门领域。
AI科技评论
2021/12/29
6190
论智三易,串联通讯,贯通边缘,演进认知,汇于机器:听五位IEEE Fellow畅谈AI未来 | GAIR 2021
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。然而,现实世界中这类高价值数据资源正在迅速耗尽,传统依赖真实数据驱动模型能力增长的路径已难以为继。
机器之心
2025/04/13
1370
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)
机器之心发布 机器之心编辑部 OmModel V3 将于近期发布,新版本将提供一句话生成算法、自由定义需求、中英双语互动、智能报告等多个特色功能,用户可以通过语音或者文字等形式,自由提交任何需求任务,系统将根据任务给出相关反馈,包括音视图文等多个模态的结果呈现(附内测名额)。 人类如何认知世界? 人类 80% 的信息来自于视觉,同时人类也是地球上唯一拥有完整语言体系的生物。当我们通过双眼看到这个世界,不论是阅读书籍、网上冲浪还是欣赏自然景观,我们的大脑都在进行着复杂的信息处理。我们不仅能够感知周围环境中的物
机器之心
2023/03/29
5640
GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)
【政策】北京市科委发布最新征集新一代人工智能、脑认知与类脑技术等六大领域储备课题
新智元报道 编辑:张乾 【新智元导读】在国务院、工信部等国家层面出台一系列支持人工智能发展的文件后,北京市科委近日将国家政策落地,发布六份通知,面向认知与类脑技术、新一代信息通信、智能制造与机器人、新一代人工智能、物联网与智慧城市等六大领域征集储备课题。新智元现将与AI强相关领域的申报要求进行汇总,以供企业、高校参考。 去年,在国家层面频频出台一系列人工智能发展规划政策后,2018年地方进入政策落地实施阶段。 11日,北京市科委发布六份通知,征集2018年六大技术领域储备课题,这六大领域分别为:
新智元
2018/03/20
1.2K0
【政策】北京市科委发布最新征集新一代人工智能、脑认知与类脑技术等六大领域储备课题
多模态AI技术「涌现」,AI公司的「新机会」
某AI企业人士如此评价GPT-4的进步:“GPT-3或3.5像一个六年级学生,而GPT-4像一个聪明的十年级学生。”
AI掘金志
2023/08/26
3830
多模态AI技术「涌现」,AI公司的「新机会」
突破!探索大模型第二增长曲线:未来大模型将迈向多模态原生!
从人工智能的发展历程来看,GPT 系列模型(例如 ChatGPT 和 GPT-4)的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性,并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。
ShuYini
2023/12/04
6400
突破!探索大模型第二增长曲线:未来大模型将迈向多模态原生!
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。本文将解析技术演进脉络、实战经验与未来图景,为读者提供前沿趋势的全局视角与产业升级的实践指引。
腾讯云开发者
2025/04/26
5700
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
他山之石:IBM的认知计算
本篇的背景源于最近部门领导提出的“数字化全景视角的运维模式”期望,这种基于海量运维数据的上帝视角对于常规数据统计方法有点吃力。AI对于解决复杂、海量、非结构化数据场景的视角可能是解决此问题的切入点。所以,打算学习一下大厂对智能的观点,先拔高一下视角,本篇是对IBM智能方案的学习。
彭华盛
2020/10/10
1.2K0
他山之石:IBM的认知计算
火了一整年的多模态学习,在工业界的落地和实践进展到底怎么样了?
随着 NLP 和 CV 的日益融合,多模态学习越来越受到学界和业界的重视。在 DALL-E、Stable Diffusion 等文本生成图像跨模态应用成熟之后,围绕多模态学习、AIGC 等议题的讨论热度持续攀升。
机器之心
2022/12/16
8710
火了一整年的多模态学习,在工业界的落地和实践进展到底怎么样了?
视觉 AI 少为人知的研究蓝海:临地安防
临地安防涵盖低空安防、水下安防及跨域安防,是临地空间中防卫、防护、生产、安全、救援等需求的多元化、跨域化、立体化、协同化、智能化体系。面向空天地海井网,涉及智能、信号、量子、材料、光机电等的交叉。对国防安全、社会稳定、经济发展具有重要意义。 1 背景 2014年,我国提出了总体国家安全观的概念[1],如何构建新时代国家安全体系,应对国家面临的安全形势,更有效地维护国家主权、领土完整以及海洋权益,是我国必须面对的问题[2]。 随着科技的发展,在低空空域、近海水域等多个方面出现新的安全防卫问题。 首先,低空空域
AI科技评论
2023/04/12
7280
视觉 AI 少为人知的研究蓝海:临地安防
预训练模型与强推理模型:人工智能时代的认知革命
人工智能技术的演进史,本质上是人类对智能本质的探索史。在深度学习浪潮席卷全球的十年间,两条技术路线逐渐显现出清晰的轮廓:以海量数据为燃料的预训练模型,与以逻辑推理为根基的强推理模型。前者通过自监督学习构建出强大的模式识别能力,后者则致力于将人类思维中的因果链和形式化规则编码为可计算的算法。二者的协同与博弈,不仅重塑了人工智能的技术版图,更在医疗诊断、科学发现、工业决策等领域催生出颠覆性应用。当GPT-4展示出惊人的上下文理解,能力AlphaGeometry在几何证明中超越人类金牌选手时,正我们见证着这两种技术范式从分立走向融合的历史性时刻。
用户7353950
2025/02/25
2330
预训练模型与强推理模型:人工智能时代的认知革命
ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
该部分系统性地阐述了当前视觉-语言-动作模型(VLA)存在的关键问题:虚假遗忘(Spurious Forgetting)和任务干扰(Task Interference)。前者指在机器人控制任务训练过程中,原有视觉-语言对齐关系被覆盖,导致多模态理解能力退化;后者指控制与理解任务因共享参数空间而相互抑制。
一点人工一点智能
2025/03/04
2100
ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
推荐阅读
【计算机视觉】一、计算机视觉概述
5560
大语言模型无法实现具身认知
1660
戴琼海:深度学习遭遇瓶颈,全脑观测启发下一代AI算法
1.1K0
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
6340
预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化
1680
【孙富春】新一代机器人:云脑机器人
1.4K0
从视音角度看多模态学习的过去与未来
6420
【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来
6230
论智三易,串联通讯,贯通边缘,演进认知,汇于机器:听五位IEEE Fellow畅谈AI未来 | GAIR 2021
6190
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
1370
GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)
5640
【政策】北京市科委发布最新征集新一代人工智能、脑认知与类脑技术等六大领域储备课题
1.2K0
多模态AI技术「涌现」,AI公司的「新机会」
3830
突破!探索大模型第二增长曲线:未来大模型将迈向多模态原生!
6400
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
5700
他山之石:IBM的认知计算
1.2K0
火了一整年的多模态学习,在工业界的落地和实践进展到底怎么样了?
8710
视觉 AI 少为人知的研究蓝海:临地安防
7280
预训练模型与强推理模型:人工智能时代的认知革命
2330
ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
2100
相关推荐
【计算机视觉】一、计算机视觉概述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档