首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每日学术速递7.30

此外,我们通过共享 MLP 巧妙地将检测和 NeRF 分支连接起来,从而使 NeRF 能够有效地适应检测并生成用于 3D 检测的几何感知体积表示。...由于我们的联合训练设计,NeRF-Det 能够很好地泛化到未见过的场景,以进行对象检测、视图合成和深度估计任务,而无需针对每个场景进行优化。代码可在 \url{ 此 https URL} 获取。...3.Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models 标题:用于去噪扩散概率模型的空间频率 U-Net 作者:Xin...Lin, Zicheng Liu, Lijuan Wang 文章链接:https://arxiv.org/abs/2307.14648 摘要: 在本文中,我们研究小波空间而不是像素空间中的去噪扩散概率模型...具体来说,在像素数据的标准去噪 U-Net 中,我们用空间频率感知卷积和注意力模块来补充 2D 卷积和仅空间注意力层,以联合建模小波数据中空间域和频率域的互补信息。

16920

每日学术速递11.30

所提出的模型 DiffusionDrive 展示了 10 × 与普通扩散策略相比,减少了去噪步骤,只需 2 个步骤即可提供卓越的多样性和质量。...这种方法允许模型从这些锚点学习去噪到期望的驾驶策略。...实时性能:通过减少去噪步骤和优化解码器结构,DiffusionDrive能够在NVIDIA 4090 GPU上以45 FPS的实时速度运行,同时保持高质量的多模态规划。 4....nuScenes数据集:用于端到端规划的流行基准,进行了开放环评估。 2. 实现细节 采用与Transfuser相同的感知模块和ResNet-34骨干网络进行公平比较。...Material3D数据集 构建了一个包含80K个高质量PBR材料和UV展开的3D对象的数据集,用于训练和评估。 5. 实验 定性评估:与现有纹理和材料生成方法相比,展现了更好的性能和材料一致性。

13410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    每日学术速递9.26

    我们首先研究了 U-Net 架构对去噪过程的关键贡献,并发现其主干主要有助于去噪,而其跳跃连接主要将高频特征引入解码器模块,导致网络忽略主干语义。...我们的主要见解是战略性地重新权衡来自 U-Net 的跳跃连接和主干特征图的贡献,以利用 U-Net 架构的两个组件的优势。...然后,法学硕士评估所提出的对象之间的空间和常识关系,以做出最终的基础决定。我们的方法不需要任何标记的训练数据,并且可以推广到新颖的 3D 场景和任意文本查询。...我们设计了一种高效的解决方案,利用神经辐射场 (NeRF) 作为一种廉价且现成的先验,将多视图 2D 图像连接到 3D 空间,而不是重复 3D 中昂贵的数据采集和注释过程。。...我们在实验中表明,SA3D 能够适应各种场景,并在几分钟内实现 3D 分割。

    23820

    【3D点云】开源 | 北大--性能SOTA的去噪方法!无论在合成噪声还是真实环境噪声下!

    点云由于采集设备的固有局限性,经常受到噪声的干扰,阻碍了3D点云的表面重建、绘制等后续工作。...以往的工作主要是从下曲面推断出有噪点的位移,但没有明确地指定去噪点来恢复曲面,可能导致去噪结果不理想。...编码器学习每个点的局部和非局部特征表示,然后通过自适应可微池操作以低噪声采样点。然后,解码器通过将每个采样点及其邻域的嵌入特征转换为以该点为中心的局部曲面来推断底层流形。...通过对重构流形进行重采样,得到去噪后的点云。此外,我们设计了一个无监督的训练损失,使我们的网络可以在无监督或有监督的方式训练。实验结果表明,无论在合成噪声还是在真实环境噪声下,该方法的性能SOTA!...声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

    2.3K40

    HyperAid:用于树拟合和层次聚类的双曲空间去噪

    ,用树形度量拟合距离的问题在理论计算机科学和机器学习界都得到了极大的关注。...尽管存在几种可证明的精确算法,用于对本质上服从树形度量约束的数据进行树形度量拟合,但对于如何对结构与树形有适度(或大幅)差异的数据进行最佳的树形度量拟合,人们所知甚少。...作者的贡献如下:首先,作者提出了一种在双曲空间中进行树度量去噪的新方法(HyperAid),当以Gromov的δ双曲性来评价时,该方法将原始数据转化为更像树的数据。...因此,无论是在合成数据还是在真实数据上,HyperAid平台都优于文献中现有的所有方法,包括Neighbor Joining(NJ)、TreeRep和T-REX。...合成数据由边缘增强树和最短距离指标表示,而真实世界数据集包括Zoo、Iris、Glass、Segmentation和SpamBase;在这些数据集上,相对于NJ的平均改进为125.94%。

    34920

    BFRffusion | 面向真实世界的盲人脸复原,中山大学提出全新盲人脸复原基准数据集

    本文方案 如上图所示,所提出的BFR算法包括四个模块:浅层退化去除模块、多级特征提取模块、可训练的时间感知提示模块和预训练的去噪U-Net模块。...最后,我们将多级特征提取模块的输出特征Fn添加到预训练的去噪U-Net模块中,通过交叉注意层映射来自可训练时间感知提示模块的提示,以提供语义指导。...通过逐渐去噪从随机高斯噪声中获得清晰的潜像,并且可以使用预训练的VAE的解码器将其解码为清晰的图像。...我们的BFRffusion能够有效地恢复真实和忠实的面部细节,并在合成和真实世界的公共测试数据集上实现最先进的性能。 我们建立了一个隐私保护的配对人脸数据集,称为PFHQ,具有平衡的种族,性别和年龄。...首先,考虑到基于扩散的盲人脸恢复模型的计算资源消耗高,有必要设计一种低成本的训练和推理策略。其次,我们计划探索合成数据集的潜力,设计更实用的合成方法用于盲人脸恢复

    61010

    每日学术速递12.29

    这种限制在涉及连续输入的场景中变得尤为明显,例如元界、视频直播和广播等需要高吞吐量的场景。为了解决这个问题,我们提出了一种新颖的方法,将原始的顺序去噪转换为批量去噪过程。...Stream Batch 消除了传统的等待和交互方法,并支持流畅和高吞吐量的流。为了处理数据输入和模型吞吐量之间的频率差异,我们设计了一种新颖的输入输出队列来并行化流处理。...此外,现有的扩散管道使用无分类器引导(CFG),这需要额外的U-Net计算。为了减轻冗余计算,我们提出了一种新颖的无残差分类器引导(RCFG)算法,该算法将负条件去噪步骤的数量减少到只有一个甚至零。...与顺序去噪方法相比,我们的 Stream Batch 在不同去噪级别上实现了约 1.5 倍的加速。所提出的 RCFG 的速度比传统 CFG 高出 2.05 倍。...首先,我们不是在静态图像上进行训练,而是通过包含时间正则化的视频训练管道来增强框架,从而实现更准确和时间一致的重建。

    19610

    2D 扩散模型 + Nerf,实现文本生成 3D 模型

    扩散模型和Nerf(神经辐射场)结合,提出DreamFusion,实现了从文字生成3D模型。...但是,如果想要将这种方法应用于 3D 生成(synthesis),需要对大规模的 3D 数据集进行标注并且在其上面训练,除此之外,还需对 3D 数据去噪的有效架构,但目前这两者都不存在。...在这项工作中,作者通过使用预训练的 2D 文本-图像的扩散模型,实现文本到 3D 合成。他们引入了基于概率密度蒸馏的损失函数,这也允许了2D扩散模型作为先验,用以优化参数图像生成器。...在该方法中,给定文本生成的 3D 模型可以从任意角度观察,通过任意照明重新点亮,或合成到任何 3D 环境中。...,而 \hat{\mathbf{x}}_\phi\left(\mathbf{z}_t ; t\right) 则是一个学习出的对优化去噪器的近似。

    2.7K20

    CVPR 2023 | MoFusion:基于去噪扩散的动作合成框架

    引言 图 1:MoFusion 可根据文本或音频输入合成 3D 人体动作长序列。我们的模型大大提高了通用性和真实性,并能以文本和音频等模态为条件。...即使音乐不在训练数据分布之中,生成的舞蹈动作仍与条件音乐节奏相匹配。 传统人体运动合成方法要么是确定性的,要么是在动作的多样性和质量上进行权衡。...针对这些局限性,我们提出了 MoFusion,即一种基于去噪扩散的、用于高质量人体动作条件合成的新框架。...我们分析了动作合成的两个相关子任务:音乐条件的编舞生成和文本条件的动作合成,通过对 AIST++ 和 HumanML3D 数据集的定量评估以及用户研究,我们展示了 MoFusion 相对于 SOTA 基准方法的有效性...我们训练神经网络 f_{\theta} 以根据条件信号去噪 t 时刻的含噪动作。

    39110

    SIGGRAPH2023|DreamFace:一句话生成 3D 数字人?

    然而,目前市面上的 3D 生成技术仍然面临着许多挑战,包括 CG 管线兼容性问题、准确性问题以及运行速度问题。...该框架能够直接生成符合 CG 制作标准的 3D 资产,具有更高的准确性、更快的运行速度和较好的 CG 管线兼容性。...然后,采用联合训练方案协调两个扩散过程,一个用于直接去噪 UV 纹理贴图,另一个用于监督渲染图像。 为了确保所创建的纹理地图不含有不良特征或照明情况,同时仍保持多样性,设计了一种提示学习策略。...与手工制作的特定领域文本提示不同,DreamFace 将两个特定领域的连续文本提示 Cd 和 Cu 与相应的文本提示结合起来,这将在 U-Net 去噪器训练期间进行优化,以避免不稳定和耗时的手工撰写提示...LDM 去噪过程将额外地受到非面部区域遮罩的限制,以确保生成的漫反射贴图不含有任何不需要的元素。 最后,通过超分辨率模块生成 4K 基于物理的纹理,以进行高质量渲染。

    56310

    ICCV 2023 | MasaCtrl:用于一致图像合成和编辑的无需微调的互自注意力控制

    图 2 Stable Diffusion 的注意力机制 SD 模型中的去噪 U-Net \epsilon_\theta 由一系列基本块组成,每个基本块包含一个残差块、一个自注意力块和一个交叉注意力块...图 6 因此,我们建议在经过几个去噪步骤后,仅在 U-Net 的解码器部分控制互子注意力,因为此时已形成清晰的目标图像布局和语义相似的特征。...可以通过编辑提示 P 将原始布局变为目标布局,并通过适当的启动去噪步骤 S 和层 L 进行合成和编辑,保持主要对象不变。...图 9 消融性实验 进一步分析了去噪过程中不同起始步骤和去噪 U-Net 中不同层级的控制策略。...因此,所提出的方法在 U-Net 的解码器部分经过几个去噪步骤后执行控制。

    1.4K10

    收集30GB、近20万对训练样本,复旦大学团队发布UniFMIR:用AI突破显微成像极限

    研究亮点: * UniFMIR 模型大幅提升了「图像超分辨率、各向同性重构、3D 去噪、表面投影和体积重建」五大任务方向上的性能 * 突破现有荧光显微成像极限 * 通过简单的参数微调便可应用于不同任务、...研究人员将 UniFMIR 应用于小鼠肝脏容积成像的各向异性原始数据,以预测各向同性的轴向切片,并与两个基于深度学习的各向同性重建模型进行了比较 (CARE 和 3D U-Net 模型)。...* 3D 去噪 研究人员进一步在 Planaria 和 Tribolium 数据集上进行了 UniFMIR 在活细胞图像去噪任务中的性能基准测试。...对扁虫进行3D图像去噪任务的视觉结果 与两个基于 U-Net 的去噪模型 CARE 和 GVTNets 相比,UniFMIR 模型在不同激光功率/曝光时间下显著抑制了低信噪比荧光显微镜图像的噪声,并清晰地描绘了带有标记的细胞核的扁虫...当前的深度学习模型 (ARE 和 GVTNets) 将这个图像恢复问题分为两个子问题,即 3D 到 2D 表面投影和 2D 图像去噪,并使用两个特定任务的网络,遵循与 U-Net 相同的编码器-解码器框架来解决它们

    45910

    CVPR 2023 | 视频AIGC,预测插帧生成编辑

    在每个金字塔级别,它利用估计的双向流为帧合成生成正向变形表示;跨越金字塔级别,它使迭代的优化用于光流和中间帧。迭代合成策略可以显著提高大运动情况下的帧插值的鲁棒性。...为了生成联合音视频对,提出了一种新的多模态扩散模型(即MM-Diffusion),其中包括两个耦合去噪自编码器。...与现有的单模态扩散模型不同,MM-Diffusion由一个顺序的多模态U-Net组成,通过设计用于联合去噪过程。用于音频和视频的两个子网络逐步从高斯噪声中学习生成对齐的音频视频对。...,并学习反向去噪过程以生成新的样本,已被证明可处理复杂的数据分布。...本文通过将每帧噪声解决为在所有帧之间共享的基础噪声和沿时间轴变化的残余噪声,提出了一个分解扩散过程。去噪流程采用两个联合学习的网络相应地匹配噪声分解。

    1.7K20

    最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一

    解释文本到图像生成背后的技术。 (用户定义文本提示用于文本到图像合成) 大型文本到图像模型在实现高质量的图像合成方面取得了显著成功。扩散模型可应用于文本到图像生成任务,以实现最先进的图像生成结果。...这一点尤其可以通过使用预训练语言模型如CLIP将文本输入编码成潜在向量来实现。扩散模型可以通过从文字生成图像数据来实现最先进的结果。但在生成高分辨率图像时,去噪的过程非常缓慢并且消耗大量内存。...扩散模型的训练 稳定扩散是一个在数十亿张图片上训练得到的大型文本到图像扩散模型。图像扩散模型学习去噪生成输出图片。稳定扩散使用从训练数据编码而来的潜在图像作为输入。...UNet U-Net用于预测去噪后的图像表示,输入为有噪声的潜在向量。UNet的输出是潜在向量中的噪声。通过将噪声从有噪声的潜在向量中减去,我们能够得到实际的潜在向量。...文本编码器 文本编码器将输入提示转换为嵌入空间,作为输入传递给U-Net。这作为对噪声潜变量的指导,当我们训练U-Net进行去噪处理时。

    1.1K10

    【他山之石】Stable Diffusion 万字长文详解稳定扩散模型

    它采用了更加稳定、可控和高效的方法来生成高质量图像。在生成图像的质量、速度和成本上都有显著的进步,因此该模型可以直接在消费级显卡上实现图像生成,可达至少 512*512 像素的图像。...(Text Encoder)、U-Net 用于处理潜空间中的图像信息(Diffusion的实际运行过程)、AutoEncoder Decoder 自动编码器使用处理后的信息解码绘制出最终图像。...在如此巨大的数据集上训练出的强大的噪点预测器 U-Net ,便有“能力”在 Diffusion 的反向生图过程中,将噪点图逐步迭代去噪,转化为一张完美的图像。...我们进一步细化解构 U-Net 的训练过程: 下图中①第一步,从庞大的数据集中选择一个训练样本,通常为某一个噪点强度级别下的图像样本。②第二步,通过 U-Net 预测该噪点和噪点级别。...U-Net 的一次去噪点过程 然后再重复这一过程,每次都去除一个级别的噪点,一个全噪点图像就被一层一层地去噪点成为一个无噪点的、只有图像内容的图片了。

    17.1K79

    Upscale-A-Video: 实时视频超分辨率的时间一致扩散模型

    为了处理视频数据,本方法首先通过将预训练模型中的 2D 卷积扩张为 3D 卷积来修改网络结构,然后用它初始化网络。本方法的目标是将从图像超分中学到的知识迁移到视频超分中,从而实现更高效的训练。...在修改后的时间 U-Net 中,选择时间注意力和基于 3D 卷积的 3D 残差块作为时间层,并将它们插入预训练的空间层中。时空注意层沿时空维度执行自我注意,并关注所有局部帧。...为了缓解这一问题,本方法在 VAE-Decoder 中引入了额外的时空 3D 残差块,以增强低层次的一致性。 此外,U-Net 中的扩散去噪过程经常会引入色彩偏移。...在处理轻微的视频抖动时,可以选择在扩散去噪过程的早期集成该模块,而对于严重的视频抖动(如 AIGC 视频),最好在去噪过程的后期执行该模块。...测试集在合成测试数据集方面,本方法构建了四个合成数据集(即 SPMCS、UDM10 、REDS30 和 YouHQ40),这些数据集在训练中采用相同的退化方法生成相应的 LQ 视频。

    1.9K20

    【CVPR 2023的AIGC应用汇总(6)】医学图像 中的diffusion扩散GAN生成对抗网络方法

    通过研究LDM的不同组成部分(例如图像的潜在向量Z、条件输入C以及去噪U-Net的不同元素)与不同的脑功能之间的关系,表征了LDM的内部机制。...本文分析了43篇报告GANs用于合成数据的研究,其中许多研究存在数据偏差、缺乏可重复性和缺乏来自放射学家或其他领域专家的反馈。这些研究中的一个普遍问题是源代码不可用,从而妨碍了可重复性。...这些建议可能有助于提高基于 GAN 的数据增强方法的可接受性,因为用于数据增强的 GAN 在 AI 和医学成像研究社区中越来越受欢迎。...然而,由于生成过程仍然处于相同的高维空间(即与数据维数相同),因此这些模型尚未扩展到3D逆问题(3D inverse problem),因为其极高的内存和计算成本。...方法可以在单个消费级GPU上运行,并确立了新的最佳实践方法,表明所提出的方法能够在最极端的情况下(如2视图3D断层扫描)实现高保真和准确的重建。

    94310

    CVPR2023 | PVDM:在投影潜在空间中的视频概率扩散模型

    简介 深度生成模型的最新进展表明,它们有望在各个领域合成高质量、逼真的样本,例如图像、音频、3D 场景 、自然语言等。作为下一步,一些作品已经积极关注更具挑战性的视频合成任务。...为了训练 [\mathbf z^s, \mathbf z^h, \mathbf z^w] 的去噪自动编码器,本文设计了基于利用流行的2D卷积U-Net架构,即DDPM,来训练扩散模型以生成图像而不是...本文注意到,这种 2D 卷积架构设计比用于视频的朴素 3D 卷积 U-Net 的计算效率更高,因为使用较少的潜在代码对视频进行编码,因此具有类似图像的结构和潜在向量的维度降低。...更具体地说,本文考虑在潜在空间中训练去噪自动编码器 \epsilon_\theta(z_t^2, z_0^1,t) ,其中 t 表征噪声强度,其目标如下: \begin{aligned} \mathbb...此外,本文的方法还能够在复杂的UCF-101数据集中以合理的质量合成视频,如图a所示,而其他基线在这种具有挑战性的数据集数据集上经常失败。

    53510

    Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

    Ho & Salimans 等人 2022 年的视频扩散模型(VDM)提出使用一种经过调整的去噪模型来实现重构引导方法,这样就可以很好地以 ^ 为基础实现 ^ 的采样: 其中 是 ^ 和 ^ 根据所提供的去噪模型的重构...模型架构:3D U-Net 和 DiT 类似于文生图扩散模型,U-Net 和 Transformer 依然是常用的架构选择。...处理空间:原本和 2D U-net 中一样的 2D 卷积层会被扩展成仅针对空间的 3D 卷积,具体来说,就是 3x3 卷积变成 1x3x3 卷积。...基础去噪模型使用共享的参数同时在所有帧上执行空间操作,然后时间层将各帧的激活混合起来,以更好地实现时间一致性;事实证明这种方法的效果优于帧自回归方法。...图 10:一个用于图像合成的预训练 LDM 被扩展成一个视频生成器。B、、、、 分别是批量大小、序列长度、通道数、高度和宽度。_S 是一个可选的条件 / 上下文帧。

    16910

    复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成

    潜在扩散模型(LDM)是一种基于去噪自编码器(Denoising Autoencoder)的生成模型,它可以通过逐步去除噪声来从随机初始化的数据生成高质量的样本。...这其中包括一个用于精准潜在表示的变分自编码器(VAE)和一个功能强大的去噪网络 U-Net。图 1 以清晰、直观的方式展示了该模型的整体架构。...Temp-conv 层紧跟在 3D ResNet 后面,该结构可以实现 3D 卷积操作,以捕捉空间和时间的关联,进而理解视频序列汇总的动态变化和连续性。...Temp-Attn 结构与 Self-attention 相似,用于分析和理解视频序列中的帧间关系,使模型能够精准地同步帧间的运行信息。...此外,为了实现高质量的视频生成,本文也尝试对训练数据进行了去水印操作。 尽管当前市场上高质量的视频描述数据集相对稀缺,但存在大量的视频分类数据集。

    30730
    领券