暂无搜索历史
雾霾是一种常见的自然现象,会显著降低场景中的能见度,导致许多计算机视觉算法,如目标检测[1]、[2]和图像识别[3],出现严重的性能下降。为了缓解这一问题,已经...
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量...
大型语言模型(LLMs)展示出了惊人的新兴能力,在自然语言处理(NLP)领域中展现出了多种推理任务的能力。Brown等人(2020年)、Rae等人、Hoffma...
近年来,语言模型(LM)在医疗领域展现出显著的潜力,因为它们具有快速决策的能力和推理和知识的能力[1, 2, 3]。然而,大规模适配语言模型面临几个障碍,包括安...
人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如,当作者面对一个喷泉表演的无声视频时,作者的解释可能会将视觉场景转化为一种听觉体验,其中视觉场...
他们面临在分布外图像上的困难。尽管编辑器优化技术非常灵活,但在推理时会带来巨大的计算成本。
由于其卓越的表现和泛化能力,机器学习模型正在迅速地应用于各个领域。这些模型依赖于数据和真实标签来取得成功。然而,获取真实标签通常具有挑战性。例如,在医学影像中,...
大型语言模型(LLMs)已成为构建针对个人需求和目的的定制化模型的强大基础。为了实现定制化,一个预训练的LLM通常会经过有监督的微调,这个过程允许LLMs根据任...
在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域...
人类图像动画是指根据一系列动作控制信号,从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽...
文本到图像生成的扩散模型[11]已经彻底改变了基于文本 Prompt 的图像合成,这在从Stable Diffusion[29]、Imagen[33]和DALL...
近年来,一些研究将Gaussian Splatting与语言嵌入结合,用于开放词汇的3D场景理解。虽然这些方法表现良好,但本质上需要非常密集的多视角输入,这限制...
准确分割多样的物体对于各种场景理解应用至关重要,包括机器人感知、自动驾驶和AR/VR等[1]、[2]。段切 Anything 模型(SAM) [3] 在实例分割...
随着图像生成模型的成功,视频生成也逐渐引起了广泛关注。尽管现有的视频生成模型(VGMs)已经达到了商用 Level 的性能,但所生成的视频时长仍然较短。长视频生...
近年来,图像生成取得了显著进展,使其在多种应用中能够合成高质量的图像。这一成功的核心在于图像分词技术的发展,该技术通过训练自编码器将原始图像数据压缩为一种紧凑且...
视觉-语言对齐已成为一种强大的范式,可用于预训练模型,这些模型能够处理各种下游任务,且在少量或没有 Token 数据的情况下也能胜任。如CLIP[19]这样的对...
从文本描述生成动态3D场景,这被称为文本到4D场景生成,是计算机视觉和图形学领域最具挑战性的前沿之一。尽管近年来的研究已经极大地增强了作者从文本生成静态3D内容...
在本文中,作者将探讨人工智能领域的最新进展,并分析其在不同行业中的应用。随着技术的不断发展,人工智能正逐渐成为推动社会进步的重要力量。本研究旨在对现有文献进行综...
最近,视觉语言模型(VLMs)如CLIP在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将VLMs应用到下游任务仍具有挑战性,因为它们的准确性通常依赖...
在Transformer的时代[1],自我监督学习[2, 3]正在革新中国视觉(CV)和自然语言处理(NLP)等所有领域。预训练加微调的范式已被广泛采纳。然而,...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市