暂无搜索历史
人工智能(AI)是一个快速增长的市场,预计到2027年将达到1万亿美元[1]。AI被广泛应用于各种现代应用程序、设备和服务,几乎涵盖了所有领域,包括汽车[2]-...
推理是智能的基本组成部分,涉及复杂的流程,其中知识和逻辑推理的运用交织在一起。作者将推理定义为通过多次推理步骤逐步达成特定目标,以从现有信息中推导出新的知识(Y...
多视图检测旨在从由多个摄像头同时拍摄的一组图像中检测物体,每个摄像头提供了同一场景的不同视角。利用多个视图可以提高对遮挡的鲁棒性,并有助于推理物体的三维属性,这...
本文探讨了利用文本到图像扩散模型学习的语言先验知识解决单目深度估计中的歧义和视觉干扰的潜力。特别是,传统的单目深度估计由于缺乏立体或多视角深度线索而具有固有的歧...
作者提出了PriorDiffusion,将人类提供的场景语言描述作为先验知识,引导深度图预测。在文本到图像预训练过程中,扩散模型学习生成与提供语言描述相符的多样...
扩散模型[9, 25, 28]在视觉生成领域实现了革命性的变革,展示了在图像质量和多样性方面显著优于传统方法如生成对抗网络(GANs)[6]的卓越能力。尽管这些...
单图像超分辨率(SISR)旨在从低分辨率图像中重构高质量图像。随着其广泛应用,高效超分辨率算法的研发成为计算机视觉领域的一个关键研究领域。最近的研究将自注意力机...
实时2D关键点检测要求模型能够在低延迟的情况下定位实例中的感兴趣点,其在多个领域具有广泛的应用前景,因为这种检测可以为下游任务(如虚拟现实[7]、动作评估[6]...
在本文中,作者提出了一种首创的文本推理架构,该架构包含多个具有选择性学习能力的二值化Transformer块,并且这些块之间交替排列有决策块,适用于EE。二值化...
了解作者周围的材料是一项极其常见的任务,但对于机器视觉方法来说仍然具有挑战性。在本文中,作者专注于3D物体的材料选择任务。
随着科技的飞速发展,人工智能(AI)已经成为一个备受关注的研究领域。近年来,深度学习在图像识别、自然语言处理和自动驾驶等领域取得了显著的成果。然而,尽管这些进展...
大语言模型(LLM),如GPT和LLaMA系列,随着上下文窗口大小的增加,在处理复杂长文本任务方面的能力得到了提升,但这也导致了推理效率的降低,特别是在内存和计...
近年来,一些目标检测模型能够在不同的数据集上捕捉到稳健、具有代表性的高级语义特征,从而实现了对物体的高精度定位和分类。这些架构包含了基于学习的视觉特征编码器,这...
随着人工智能技术的飞速发展,其在各个领域的应用日益广泛。本文旨在探讨人工智能技术在当前的研究进展、应用前景以及所面临的挑战。通过对现有文献的梳理和分析,本文将全...
近年来,脑肿瘤分割模型在诊断中发挥了重要作用。然而,它们面临着MRI复杂性和多变性的挑战,包括不规则形状和边界模糊,导致噪声、误分类和不完整的分割,从而限制了其...
当前在NLP中的监督学习默认方法是直接使用目标任务标签数据微调一个预训练的 Transformer 。
大型语言模型(LLMs)的出现标志着自然语言处理和人工智能进入了一个新时代。这些模型在各种领域表现出惊人的能力,在知识检索和表达(张等人,2024年)等任务上实...
从一组图像中提取相机参数和场景几何结构是计算机视觉中的一个基本问题,通常被称为运动恢复结构(SfM)或同时定位与建图(SLAM)。尽管几十年的研究已经产生了适用...
预测世界模型旨在利用过去的观测预测未来的状态,在实现端到端驾驶系统中起着关键作用。在CVPR 2024预测世界模型挑战赛上,参与者需要使用过去的图像输入预测未来...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市