本文分享论文『Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text』,由谷歌& UCLA 联合提出统一的基础模型,是一个既能做 CV 任务,也能做 NLP 任务的 Transformer 模型!
2021过去了,在过去的一年了出现了许多优秀的论文。其中,令我印象最为深刻的莫过于年初OpenAI发布的CLIP模型,通过简单的对比学习预训练,就能在多个下游任务中获得非常好的实验结果。因此,短短一年间,它就获得500+的引用量。在本文中,我们就来盘点一些基于CLIP模型的拓展网络。
机器之心专栏 机器之心编辑部 近年来,互联网环境中的多媒体内容大量增加,如何通过视频文本相互检索,提升用户获取信息的效率,满足不同的用户对多媒体内容的消费需求变得异常重要。随着短视频内容社区的兴起,多媒体内容的创作门槛变低,UGC 内容成为主流,视频文本检索任务面临更加复杂和困难的挑战。本文针对视频文本检索任务提出层次化对比学习的跨模态检索思路,实现了更加高效且精准的视频文本检索方法,目前该论文已经被 ICCV2021 接收。 论文链接:https://arxiv.org/abs/2103.15049
2022年10月23日,香港城市大学黄家骏团队在Briefings in Bioinformatics上发表文章。作者提出了CoaDTI,一种使用多模态协同注意力(co-attention)框架进行药物-靶标蛋白相互作用预测的新型算法。CoaDTI结合了协同注意力机制,对药物模式和蛋白质模式的相互作用信息进行建模。CoaDTI结合了Transformer从原始氨基酸序列中学习蛋白质表示,以及GraphSAGE从SMILES中提取分子图特征的方法。此外,作者采用迁移学习策略,通过预训练的Transformer对蛋白质特征进行编码,以解决标记数据稀缺的问题。
随着互联网上多媒体数据的增长,视频文本检索已经成为一个热门的研究课。用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注。然而,现有的跨模态Transformer方法通常受到两个限制:
大规模图像-文本对的视觉语言预训练(VLP)在跨模态表征的学习方面取得了快速的进展。现有的预训练方法要么直接将特征级的图像表示和文本表示连接起来作为single-stream Transformer的输入,要么使用two-stream Transformer将图像-文本表示在高级语义空间对齐。
多模态学习旨在理解和分析来自多种模态的信息,近年来在监督机制方面取得了实质性进展。
面部表情识别(FER)是日常人类社交互动以及人机互动中成功进行的基本任务[1]。根植于人类感知的情境敏感和自上而下的方式,作者如何感知一个表情会随着(情感)情境和先验知识的变化而变化[7, 18, 53],以及其他各种因素[58]。相同的面部表情根据情境和上下文的不同可能会被感知为不同的含义[5, 16, 47]。Maier等人[39]最近的一项综述强调,为了开发与人类感知相一致的FER系统,作者应该考虑社会知识以及情境线索。从人类的角度来看,情境本质上是多模态的,不仅仅是视觉上可感知的,如同之前在计算机视觉中常处理的那样[31, 33, 59]。
图像和句子匹配的关键是准确测量图像和句子之间的视觉语义相似性。但是,大多数现有方法仅利用每个模态的模态内关系或图像区域与句子词之间的模态间关系来进行跨模态匹配任务。
视频段落字幕(Video paragraph captioning)的目的是在未修剪的视频中描述多个事件。现有的方法主要通过事件检测和事件字幕两个步骤来解决问题。这种二阶段的方式使生成的段落的质量高度依赖于事件建议(event proposal)检测的准确性,然而事件建议检测也是一项具有挑战性的任务。
使用图模型解决问题时,面对实际环境中来源多样、形式复杂的数据,怎样将多种信息进行合理融合是一个值得关注的问题。本文将介绍两篇发表于KDD 2020的与图模型信息融合相关的工作。
---- 新智元报道 来源:专知 【新智元导读】在这份综述中,作者对SSML的最新进展进行了全面回顾,并沿着三个正交轴进行分类:目标函数、数据对齐和模型架构。 多模态学习旨在理解和分析来自多种模态的信息,近年来在监督机制方面取得了实质性进展。 然而,对数据的严重依赖加上昂贵的人工标注阻碍了模型的扩展。与此同时,考虑到现实世界中大规模的未标注数据的可用性,自监督学习已经成为缓解标注瓶颈的一种有吸引力的策略。 基于这两个方向,自监督多模态学习(SSML)提供了从原始多模态数据中利用监督的方法。 论文
视频活动定位(Video activity localisation)因其在自动定位未修剪和非结构化视频中,根据语言描述定位最显著视觉片段方面的实际价值,获得了越来越多的关注。对于监督模训练,必须对一个句子对应视频段的开始和结束时间进行时间标注。这种标注不仅代价非常大,而且对模糊性和主观注释偏差也很敏感。
现代视频文本检索框架主要由视频编码器 、文本编码器 和相似度head 三个部分组成。随着视觉表示学习和文本表示学习的成功,基于Transformer的编码器和融合方法也被应用于视频-文本检索领域。
选自Google AI Blog 作者:Paul Hongsuck Seo和Arsha Nagrani 机器之心编译 编辑:泽南 一个模型在五项基准上都实现了重大进步,该研究已被 CVPR 2022 大会收录。 多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述(字幕)。这样的系统是朝着构建多模态对话系统的长期目标前进的一步,后者可以轻松地与用户交流,同时通过多模态输入流感知环境。 与关键挑战在于处理和理解多模态输入视频的视频理解任务不同,多模态视频字幕的任务包括生成实用化字幕的额外挑战。这项任务被
今年 2 月,谷歌上线了多模态大模型 Gemini1.5,通过工程和基础设施优化、MoE 架构等策略大幅提升了性能和速度。拥有更长的上下文,更强推理能力,可以更好地处理跨模态内容。
1.MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning
论文作者:Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser, Li Yi
# 一、实验目标 写一个带修改和删除的表格。页面如下: # 二、环境依赖 采用bootstrap框架来实现,依赖的版本为3.3.7。 我们可以直接引用cdn的资源,资源地址如下: 修改和删除按钮会弹出模态框,需要依赖下列两个js: **环境准备** 平台已经提供了实验的html、css文件。 # 三、实验知识 点击按钮弹出模态框,需要用到data-toggle和data-target。 data-target表示要弹出的模态框的id,每个模态框都有自己的id。 # 四、实验步骤: 打开src/main/
近年来,随着大型模型的显著发展,大型视觉-语言模型(LVLMs)在各种多模态理解和推理任务中展示了卓越的能力。相比于传统的大型语言模型(LLMs),由于更接近多资源的现实世界应用和多模态处理的复杂性,LVLMs 展示了巨大的潜力和挑战。然而,LVLMs 的脆弱性相对较少被探索,在日常使用中可能存在潜在的安全风险。在本文中,我们对现有的各种 LVLM 攻击形式进行了全面的回顾。具体来说,我们首先介绍了针对 LVLMs 攻击的背景,包括攻击的初步知识、攻击的挑战和攻击资源。然后,我们系统地回顾了 LVLM 攻击方法的发展,如操纵模型输出的对抗攻击,利用模型漏洞进行未授权操作的越狱攻击,设计提示类型和模式的提示注入攻击,以及影响模型训练的数据投毒攻击。最后,我们讨论了未来有前景的研究方向。我们相信,我们的调查为 LVLM 脆弱性的现状提供了洞见,激励更多研究人员探索和缓解 LVLM 开发中的潜在安全问题。最新的 LVLM 攻击论文会在 https://github.com/liudaizong/Awesome-LVLM-Attack 持续收集。
每种模态都有自己的视角来反映特定的数据特征。整合多模态数据使模型能够在宏观、微观和分子层面上获得关于受试者状况的各种洞察,从而实现准确全面的疾病诊断。例如,各种成像技术的多模态融合显著提高了在内镜场景中胃肠道病变的检测和表征。同样,将基因信息与病理图像结合可以提高癌症分级的预测准确性。相关任务,如生存预测(旨在预测重大事件如死亡或疾病复发的时间间隔),也可以从这种多模态融合中受益[7]。此外,由病理图像中的细胞核分割构建的细胞图显示提供了更细粒度的微观信息[70]。视觉语言模型在生物医学图像和文本学习方面的最新进展也激发了一系列工作[78],其中诊断文本通常包含抽象的语义信息[10]。这些进展为扩展生物医学多模态模型的容量边界至全模态表示,以处理更广泛的临床模态提供了潜力。
近日,宇耀生物与湖南大学DrugAI团队在国际生物信息学期刊《Briefings in Bioinformatics》上发表的研究论文“Chemical structure-aware molecular image representation learning”。当前基于分子图像的药物发现方法面临两个主要挑战:(1)怎样解决分子数据标签不足的问题,以及(2)如何从隐式编码图像中捕获化学结构信息。考虑到化学结构可由分子图明确编码(例如氮、苯环和双键),作者提出了一种用于分子表示学习的对比图-图像(Graph-Image)预训练框架(CGIP),该框架利用自监督对比学习将化学知识从图转移到图像中。通过精心设计的模态内和模态间对比学习,CGIP可以从大规模未标记分子中学习图中的显式信息和图像中的隐式信息。作者在多个实验设置(分子性质预测、跨模态检索和分布相似性)上评估了 CGIP的性能,结果表明 CGIP 在 12 个基准数据集上实现最先进的性能,并证明了CGIP 能够将图中的化学知识迁移到分子图像中,使图像编码器能够感知图像中的化学结构信息。
人的智识是「多模态学习」的总和,也就是可以跨越分类界限,理解和移用不同来源或形式的讯息与经验。
Yijun Tian, Kaiwen Dong, Chunhui Zhang, Chuxu Zhang, Nitesh V. Chawla
而且原版的GPT-3.5已经不见了,官方称是为了能够让AI普及到更多普通人,所以推出了新的小模型GPT-4o mini。
域适应是在标签稀缺时实现学习的一项重要任务。虽然大多数工作只关注图像模态,但存在许多重要的多模态数据集。为了利用多模态进行域适应,我们提出了跨模态学习,我们通过相互模仿来加强两种模态的预测之间的一致性。我们限定网络对标记的数据做出正确的预测,并对未标记的目标域数据进行跨模态的一致性预测。无监督和半监督的域适应 settings 的实验证明了这种新颖的域适应策略的有效性。具体来说,我们评估来自 2D 图像、3D 点云或两者都有的 3D 语义分割任务。我们利用最近的自动驾驶数据集来产生各种各样的域适应场景,包括场景布局上、光照上、传感器设置上、天气上的变化,以及 synthetic-to-real 的设置。在所有域适应场景中,我们的方法显著地改进了以前的单模态域适应的 baseline 。
— 科研人才培养计划 — 手机扫码“预申报”,获得更多项目通知 PC端复制网址,进入“申报” https://www.withzz.com/project/detail/99 — 工程人才培养计划 — 手机扫码“预申报”,获得更多项目通知 PC端复制网址,进入“申报” https://www.withzz.com/project/detail/100 — 获取详细课题答疑视频 — 1月28日24:00后答疑视频仅限“空间内成员“观看,感兴趣的同学请扫码加入空间,获得永久回看权限。
本文介绍由华大基因的汪建和牟峰共同通讯发表在 Nature Machine Intelligence 的研究成果:单细胞数据集规模的不断扩大,对解决扩展的规模、扩展的模态和批次效应等问题带来了计算挑战。最近提出的基因深度学习的方法,是通过推导非线性细胞嵌入来解决这些问题。对此,作者提出了基于对比学习的方法Concerto,它利用自监督的蒸馏框架来模拟多模态单细胞图谱。只需将每个细胞与其他细胞区分开来,Concerto 就可以适用于各种下游任务,如细胞类型分类、数据集成、参考映射。与当前的主流软件包不同,Concerto 的对比设置支持对所有基因进行操作以保留生物变异,它还可以灵活地推广到多组学中以获得统一的细胞表示。在模拟数据集和真实数据集上进行基准测试,实验结果表明,Concerto 的性能远优于其他方法。并且,Concerto 概括了不同的免疫反应,还发现了 COVID-19 患者的疾病特异性细胞状态。总体而言,Concerto 将通过迭代构建单细胞参考图谱并快速映射新的数据集来传输相关的细胞注释,从而促进生物医学研究。
大家好,这里是 NewBeeNLP。今天看看Meta的最新推荐算法论文,“统一的生成式推荐”(GR) 第一次在核心产品线替换掉了近十年推荐工业界长期使用的分层海量特征的模型范式。
在深度学习在医疗保健领域的众多应用中,细分无疑是研究最多的领域之一,因为它可能带来广泛的优势。
徐海洋,阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文30多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
本文介绍由德国慕尼黑工业大学的Fabian J. Theis等人发表于Nature Biotechnology 的研究成果:研究人员报道了一种深度学习策略scArches (single-cell architectural surgery),把查询数据集映射到参考图谱上。scArches不需要原始数据,仅在现有参考图谱上应用迁移学习和参数优化高效分析新数据。利用小鼠大脑、胰腺、免疫和整个有机体图谱例子,作者表明scArches能在去除批次效应的同时保留了生物状态信息。最后,使用scArches把新冠疾病映射到健康图谱上,其保留了COVID-19的疾病变异,从而能够发现疾病特定细胞状态。scArches将通过迭代构建、更新、共享和有效使用参考图谱来促进合作项目。
机器之心专栏 作者:中国人民大学高瓴人工智能学院 最近,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然·通讯》(英文名:Nature Communications,简称Nat Commun)上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文,文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能,并将对各种
TLDR: 针对序列推荐中模态融合的顺序挑战,本文提出了一种基于图的自适应融合方法,以实现灵活的模态特征融合,使每种模态都能优先考虑其固有的顺序或与其他模态的相互作用。
多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率。
详情见:https://github.com/Tencent/tdesign-vue/releases/tag/0.46.3
2021腾讯犀牛鸟精英人才培养计划12月11日开放申请,1月28日24:00截止,每年仅开放一次。本年度,为帮助学生选择与研究兴趣更加匹配的课题,1月5日-15日开放“犀牛鸟精英人才培养计划线上答疑会”。欢迎各位老师及学生关注答疑视频回播。 70+真实课题:汇聚产业70+最新真实课题及人才需求动态解读。 12个前沿方向:机器人、自动驾驶、AI医疗、量子计算、机器学习、语音技术、自然语言处理、视觉及多媒体计算、信息检索与推荐系统、信息安全技术、数据库、智慧城市。 2项培养计划:“犀牛鸟精英科研人才培养计划
医生专家的手动标注是医学影像AI研究的基石。标注软件需要尽可能节省医生手动标注的耗时,减少医生标注的痛苦,并帮助医生提高标注的质量与一致性。作为首款国产一站式医学影像标注软件,Pair软件具备专业便捷、通用易用且智能化的特点。自2020年公开以来,Pair收获了诸多肯定与批评反馈,实现了持续的迭代优化与智能化再升级。此次将对Pair在2021年的重要更新做系统整理与呈现。Pair软件的核心功能亮点如下:
让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话,通过这些任务训练和评估机器在特定方面的智能。一般来讲,领域专家通过手工构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标注数据,以获得更好、更强大的模型。
相对于智子引擎前代的ChatImg序列模型,Awaker 1.0采用全新的MOE架构并具备自主更新能力,是业界首个实现「真正」自主更新的多模态大模型。
说明:对话框和抽屉都是在当前页面之上覆盖出现的组件,让用户在不离开主路径的情况下,查看信息/提示/反馈,或快速执行某些的操作。两者的交互模式有类似之处,使用场景也有所重叠。本文对两个组件的主要差别进行了对比,并提供方法帮助大家快速判断应该选择哪一个。
家人们谁懂,连大模型都学会看好莱坞大片了,播放过亿的GTA6预告片大模型还看得津津有味,实在太卷了!
miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。
仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示,并成功生成新序列。然而,由于世界本质上是多模态的,最近的研究尝试创建能够同时在多个模态中生成输出的多模态模型。这通常通过在预训练或后续微调阶段进行某种形式的词汇扩展(将多模态表示转换为离散标记并将其添加到模型的基本词汇表中)来实现。虽然多模态预训练具有强大的性能优势,但也存在一些问题,如添加新模态后需要从头训练新的模型,并进行超参数搜索,以确定各模态之间的最佳训练数据比例,这使得这种解决方案不适合较小的模态。另一种方法是在预训练后进行词汇扩展,将未见过该模态的模型微调到该模态,但这会破坏原有模型的强大能力,仅能执行微调后的跨模态任务。
今天将分享多模态MRI 的肝脏病变诊断完整实现版本,为了方便大家学习理解整个流程,将整个流程步骤进行了整理,并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。
论文 1:Scaling Language Models: Methods, Analysis & Insights from Training Gopher
在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0,向 AGI 迈出至关重要的一步。
领取专属 10元无门槛券
手把手带您无忧上云