暂无搜索历史
近年来,复杂的3D场景理解成为计算机视觉的一个重要领域,涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型,方法如[42; 64; 68; 84; 91]已...
视觉语言预训练最近引起了很多关注,主要是因为在各种下游任务上表现出令人印象深刻的零样本迁移性能。这种期望的性质主要来自将视觉和文本空间对齐。例如,最常用的预训练...
在过去的二十年里,生成和编辑照片的技术发生了迅速的变化。这一变化带来了视觉内容可以轻松创建和编辑的时代,留下了极少的感知痕迹。因此,人们逐渐意识到作者正站在一个...
最近,多模态大型语言模型(MLLMs)的进步已经使得在结合文本和视觉信息处理复杂的推理任务上取得了显著的进展。例如,GPT-4o 在MMMU基准测试上达到了69...
数字世界充斥着大量信息。文本、图像和视频以空前的速度被生产出来,针对文本 Query 的传统搜索系统跟不上节拍。基于关键词的搜索通常产生大量的结果,无法捕捉用户...
近年来大型语言模型的突破性发展, 尤其是GPT-4o[50]的出现,使许多人认为开发类似J.A.R.V.I.S这样的AI助手的可能性越来越大。这样的助手将是连续...
自20世纪初以来,人工智能(AI)已经发展成为一门独立的学科。AI的核心理念是通过模拟人类智能行为来创建人工智能系统,以解决现实世界中的问题。随着计算机科学的发...
当前的多模态大型语言模型(MLLM)通过将预训练的视觉编码器与强大的语言模型(Touvron等人,2023;Zheng等人,2023)整合,已经取得了显著的进展...
密集自我监督学习训练特征提取器,以在没有监督的情况下为图像中的每个像素或块产生表示。近年来,该领域取得了显著的进展,主要改善了无监督语义分割 ,以图像为中心的代...
多模态预训练模型在通用的计算机视觉任务,包括分类和回归领域取得了巨大的成功[1, 2, 8]。在广泛的多样数据集上的预训练,使得多模态预训练模型能够理解不同模态...
随着扩散模型应用的逐渐普及和用户群体的指数增长,对扩散模型的压缩[1]和推理加速[2]的研究变得越来越重要。这些努力旨在在实际应用中节省推理时间和能耗,从而减少...
随着眼科医学训练数据的可用性,视网膜基础模型近年来受到很大关注,并在临床应用中广泛使用。视网膜图像及其相应的诊断报告是两种常见的、巨大的数据模式,已用于训练视网...
近年来,由于在各种自然语言任务上的惊人表现,大型语言模型(LLM)受到了广泛关注。然而,实际场景往往涉及不仅仅是语言模态,因此将LLM扩展到多模态LLM至关重要...
将多个模态理解的集成与长序列能力的集成非常重要。支持更多模态的基础模型可以接受更灵活的输入信号,使人们可以以更多样化的方式与模型进行交互,例如类似 GPT-40...
作者的目标是构建可以在包含先前未知物体的环境中运行的长期视野操作系统。对这些系统的一个关键步骤是,将RGB或RGB-d图像分割成待操作的目标候选体。这一步骤通常...
为了安全和有效率的路径规划,自主车辆依赖于3D目标检测,即它们必须准确识别周围交通环境中的目标(例如车辆、骑自行车的人、步行的人)的地点、尺寸和类型。最近的一些...
开发能够理解3D世界的系统是计算机视觉领域的一个重要目标。这类系统需要一个语义丰富的3D表示,将目标嵌入空间结构中。此外,场景理解系统需要能够理解和推理特定场景...
大型语言模型(LLMs)和大型的多模态模型(LMMs)的出现,彻底改变了人工智能领域的格局。它们强大的推理能力和强大的泛化能力使得它们可以直接应用在各种场景中。...
安全自主驾驶依赖于可靠的场景感知,核心任务是定位和识别周围3D世界中的决策性物体。为增强感知能力,激光雷达和摄像头传感器在大多数当前自主车辆中同时使用,分别提供...
手写数学表达式作为语言和符号之间的桥梁,在数学、物理和化学等领域中很常见。相应的任务,即手写数学表达式识别(HMER),旨在准确地将表达式图像转换为 LaTeX...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市