首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    多才多艺模型出现 | 捕捉每一个细节,多任务 + 多模态 + 自监督等Trick都不在话下!

    面部表情识别(FER)是日常人类社交互动以及人机互动中成功进行的基本任务[1]。根植于人类感知的情境敏感和自上而下的方式,作者如何感知一个表情会随着(情感)情境和先验知识的变化而变化[7, 18, 53],以及其他各种因素[58]。相同的面部表情根据情境和上下文的不同可能会被感知为不同的含义[5, 16, 47]。Maier等人[39]最近的一项综述强调,为了开发与人类感知相一致的FER系统,作者应该考虑社会知识以及情境线索。从人类的角度来看,情境本质上是多模态的,不仅仅是视觉上可感知的,如同之前在计算机视觉中常处理的那样[31, 33, 59]。

    01

    多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构

    ---- 新智元报道   来源:专知 【新智元导读】在这份综述中,作者对SSML的最新进展进行了全面回顾,并沿着三个正交轴进行分类:目标函数、数据对齐和模型架构。 多模态学习旨在理解和分析来自多种模态的信息,近年来在监督机制方面取得了实质性进展。 然而,对数据的严重依赖加上昂贵的人工标注阻碍了模型的扩展。与此同时,考虑到现实世界中大规模的未标注数据的可用性,自监督学习已经成为缓解标注瓶颈的一种有吸引力的策略。 基于这两个方向,自监督多模态学习(SSML)提供了从原始多模态数据中利用监督的方法。 论文

    02

    【综述专栏】大型视觉语言模型攻击综述:资源、进展与未来趋势!

    近年来,随着大型模型的显著发展,大型视觉-语言模型(LVLMs)在各种多模态理解和推理任务中展示了卓越的能力。相比于传统的大型语言模型(LLMs),由于更接近多资源的现实世界应用和多模态处理的复杂性,LVLMs 展示了巨大的潜力和挑战。然而,LVLMs 的脆弱性相对较少被探索,在日常使用中可能存在潜在的安全风险。在本文中,我们对现有的各种 LVLM 攻击形式进行了全面的回顾。具体来说,我们首先介绍了针对 LVLMs 攻击的背景,包括攻击的初步知识、攻击的挑战和攻击资源。然后,我们系统地回顾了 LVLM 攻击方法的发展,如操纵模型输出的对抗攻击,利用模型漏洞进行未授权操作的越狱攻击,设计提示类型和模式的提示注入攻击,以及影响模型训练的数据投毒攻击。最后,我们讨论了未来有前景的研究方向。我们相信,我们的调查为 LVLM 脆弱性的现状提供了洞见,激励更多研究人员探索和缓解 LVLM 开发中的潜在安全问题。最新的 LVLM 攻击论文会在 https://github.com/liudaizong/Awesome-LVLM-Attack 持续收集。

    01

    港中文 和 上海 AI Lab提出 GTP-4o 异构图技术突破多模态学习难题 !

    每种模态都有自己的视角来反映特定的数据特征。整合多模态数据使模型能够在宏观、微观和分子层面上获得关于受试者状况的各种洞察,从而实现准确全面的疾病诊断。例如,各种成像技术的多模态融合显著提高了在内镜场景中胃肠道病变的检测和表征。同样,将基因信息与病理图像结合可以提高癌症分级的预测准确性。相关任务,如生存预测(旨在预测重大事件如死亡或疾病复发的时间间隔),也可以从这种多模态融合中受益[7]。此外,由病理图像中的细胞核分割构建的细胞图显示提供了更细粒度的微观信息[70]。视觉语言模型在生物医学图像和文本学习方面的最新进展也激发了一系列工作[78],其中诊断文本通常包含抽象的语义信息[10]。这些进展为扩展生物医学多模态模型的容量边界至全模态表示,以处理更广泛的临床模态提供了潜力。

    01

    宇耀生物 Brief. Bioinform. | 化学结构感知的分子图像表示学习

    近日,宇耀生物与湖南大学DrugAI团队在国际生物信息学期刊《Briefings in Bioinformatics》上发表的研究论文“Chemical structure-aware molecular image representation learning”。当前基于分子图像的药物发现方法面临两个主要挑战:(1)怎样解决分子数据标签不足的问题,以及(2)如何从隐式编码图像中捕获化学结构信息。考虑到化学结构可由分子图明确编码(例如氮、苯环和双键),作者提出了一种用于分子表示学习的对比图-图像(Graph-Image)预训练框架(CGIP),该框架利用自监督对比学习将化学知识从图转移到图像中。通过精心设计的模态内和模态间对比学习,CGIP可以从大规模未标记分子中学习图中的显式信息和图像中的隐式信息。作者在多个实验设置(分子性质预测、跨模态检索和分布相似性)上评估了 CGIP的性能,结果表明 CGIP 在 12 个基准数据集上实现最先进的性能,并证明了CGIP 能够将图中的化学知识迁移到分子图像中,使图像编码器能够感知图像中的化学结构信息。

    01

    TPAMI 2022|3D语义分割中域适应的跨模态学习

    域适应是在标签稀缺时实现学习的一项重要任务。虽然大多数工作只关注图像模态,但存在许多重要的多模态数据集。为了利用多模态进行域适应,我们提出了跨模态学习,我们通过相互模仿来加强两种模态的预测之间的一致性。我们限定网络对标记的数据做出正确的预测,并对未标记的目标域数据进行跨模态的一致性预测。无监督和半监督的域适应 settings 的实验证明了这种新颖的域适应策略的有效性。具体来说,我们评估来自 2D 图像、3D 点云或两者都有的 3D 语义分割任务。我们利用最近的自动驾驶数据集来产生各种各样的域适应场景,包括场景布局上、光照上、传感器设置上、天气上的变化,以及 synthetic-to-real 的设置。在所有域适应场景中,我们的方法显著地改进了以前的单模态域适应的 baseline 。

    01

    Nat. Mach. Intell. | 基于对比学习的方法可快速映射到数百万规模的多模态单细胞图谱

    本文介绍由华大基因的汪建和牟峰共同通讯发表在 Nature Machine Intelligence 的研究成果:单细胞数据集规模的不断扩大,对解决扩展的规模、扩展的模态和批次效应等问题带来了计算挑战。最近提出的基因深度学习的方法,是通过推导非线性细胞嵌入来解决这些问题。对此,作者提出了基于对比学习的方法Concerto,它利用自监督的蒸馏框架来模拟多模态单细胞图谱。只需将每个细胞与其他细胞区分开来,Concerto 就可以适用于各种下游任务,如细胞类型分类、数据集成、参考映射。与当前的主流软件包不同,Concerto 的对比设置支持对所有基因进行操作以保留生物变异,它还可以灵活地推广到多组学中以获得统一的细胞表示。在模拟数据集和真实数据集上进行基准测试,实验结果表明,Concerto 的性能远优于其他方法。并且,Concerto 概括了不同的免疫反应,还发现了 COVID-19 患者的疾病特异性细胞状态。总体而言,Concerto 将通过迭代构建单细胞参考图谱并快速映射新的数据集来传输相关的细胞注释,从而促进生物医学研究。

    02

    Nat. Biotechnol. | 通过迁移学习将单细胞数据映射到参考图谱

    本文介绍由德国慕尼黑工业大学的Fabian J. Theis等人发表于Nature Biotechnology 的研究成果:研究人员报道了一种深度学习策略scArches (single-cell architectural surgery),把查询数据集映射到参考图谱上。scArches不需要原始数据,仅在现有参考图谱上应用迁移学习和参数优化高效分析新数据。利用小鼠大脑、胰腺、免疫和整个有机体图谱例子,作者表明scArches能在去除批次效应的同时保留了生物状态信息。最后,使用scArches把新冠疾病映射到健康图谱上,其保留了COVID-19的疾病变异,从而能够发现疾病特定细胞状态。scArches将通过迭代构建、更新、共享和有效使用参考图谱来促进合作项目。

    02

    Zipper: 一种融合多种模态的多塔解码器架构

    仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示,并成功生成新序列。然而,由于世界本质上是多模态的,最近的研究尝试创建能够同时在多个模态中生成输出的多模态模型。这通常通过在预训练或后续微调阶段进行某种形式的词汇扩展(将多模态表示转换为离散标记并将其添加到模型的基本词汇表中)来实现。虽然多模态预训练具有强大的性能优势,但也存在一些问题,如添加新模态后需要从头训练新的模型,并进行超参数搜索,以确定各模态之间的最佳训练数据比例,这使得这种解决方案不适合较小的模态。另一种方法是在预训练后进行词汇扩展,将未见过该模态的模型微调到该模态,但这会破坏原有模型的强大能力,仅能执行微调后的跨模态任务。

    01
    领券