本文作者是天津大学智能与计算学部张鹏教授及其硕士生赵佳铭,博士生乔文博、高珲。该项研究工作受到国家自然科学基金委、天津大学 - 中科闻歌联合实验室资助。
引言
天津大学量子智能与语言理解团队创新性地将量子计算引入隐式神经表征领域,提出了量子隐式表征网络(Quantum Implicit Representation Network, QIREN)。与经典神经网络方法相比,该方法在理论上具有指数级强的信号表征能力。实验结果也证实了 QIREN 的确表现出超越信号表示任务上 SOTA 模型的优异性能,在参数量更少的情况下,拟合误差最多减少 35%。图 1 中展示了本文的核心思想和主要结论。相关论文已经被机器学习领域最权威的会议之一 ICML 2024 接收。
图 1. 经典傅立叶神经网络与量子傅立叶神经网络。
近年来,隐式神经表征作为一种新兴的信号表征方式引起了广泛关注。与传统的离散网格表示(例如用像素网格表示的图像)相比,隐式神经表征具有许多独特的优势。首先,它具备"无限分辨率"的能力,可以在任意空间分辨率下进行采样。其次,隐式神经表征具有出色的存储空间节省,为数据存储提供了便利。正因为这些独特的优势,隐式神经表征迅速成为表示图像、物体和3D场景等信号的主流范式。大多数关于隐式神经表征的早期研究都建立在基于ReLU的多层感知器(MLP)之上。然而,基于ReLU的MLP难以精确建模信号的高频部分,如图2所示。最近的研究已经开始探索使用傅立叶神经网络(FNN)来克服这一限制。然而,面对现实应用中越来越复杂的拟合任务,经典傅立叶神经网络也需要越来越多的训练参数,这增加了对计算资源的需求。本文提出的量子隐式神经表征利用了量子优势从而能够减少参数和计算消耗,这种解决方案能够给隐式神经表征甚至机器学习领域带来新的启发。
图 2. 真实图像的不同频率分量(顶部)和基于 ReLU 的 MLP 拟合的图像的不同频率分量(底部)
模型
图 3. 模型架构
模型整体架构
QIREN 的总体架构如图 3 所示,由 N 个混合层和末端的线性层组成。该模型以坐标作为输入并输出信号值。数据最初进入混合层,从 Linear 层和 BatchNorm 层开始,得到:
然后被输入到数据重新上传量子电路 QC 中。在图 2 (b) 和 (c) 中,我们给出了参数层和编码层量子电路的具体实现。参数层由 K 个堆叠块组成。每个块包含应用于每个量子位的旋转门,以及以循环方式连接的 CNOT 门。编码层在每个量子位上应用门。最后,我们测量了量子态相对于可观测量的期望值。量子电路的输出由下式给出:
其中 O 表示任意可观测量。第 n 个混合层的输出将被用作第(n+1)层的输入。最后,我们添加一个线性层以接收并输出。我们使用均方误差(MSE)作为损失函数来训练模型:
模型理论分析
在一些先前的研究中,数据重上传量子线路的数学性质已经被揭示,本质上数据重上传量子线路是以傅立叶级数的形式拟合目标函数。但之前的工作只探索了多层单量子比特线路或单层多量子比特线路,并且没有与经典方法进行比较,没有找到数据重上传量子线路的优势。我们将研究扩展到多层多量子比特线路。此外,我们证明了在隐式神经表征领域,以数据重上传量子线路为核心组件的混合量子神经网络 QIREN 相比经典方法有着指数级优势。我们分析了 QIREN 中的量子层和经典层的作用并将其归纳为以下三点:
1. 在最佳条件下,数据重上传量子电路表示傅立叶级数的能力随着电路的大小呈指数增长。
具体推导见论文 4.2 和 4.3 节。
2. 线性层的作用是进一步扩展频谱和调整频率,从而提高拟合性能。
在将数据上传到量子电路之前应用线性层相当于调整编码层哈密顿量的本征值,最终影响频谱。这种方法有两个优点。首先,它可以使频谱更大。仅用门编码时频谱中会产生一些冗余项。这种冗余可以通过使用线性层来减少。其次,它使频谱的覆盖范围可以调整,旨在覆盖更重要的系数更大的频率。因此,加入线性层可以进一步提高 QIREN 的拟合性能。
3. Batchnorm 层的作用是加速量子模型的收敛。
在前馈神经网络中,数据通常在激活函数之前通过 BatchNorm 层,这有效地防止了消失梯度问题。类似地,在 QIREN 中,量子电路取代了激活函数,并在提供非线性方面发挥作用(量子电路本身是线性的,但将经典数据上传到量子电路的过程是非线性的)。因此,我们在这里添加了 BatchNorm 层,目的是稳定和加速模型的收敛。
实验结果
我们通过图像表示和声音表示任务验证了 QIREN 在表示信号,特别是高频信号方面的优越性能。实验结果如表 1 所示。QIREN 和 SIREN 在声音表示任务上表现出相似的表现。尽管这两个模型的性能似乎是可比较的,但值得强调的是,我们的模型以最少的参数实现了 35.1% 的内存节省,并且 SIREN 的收敛需要设置合适的超参数,而我们的模型没有这种限制。然后,我们从频率的角度分析了模型的输出。我们在图 4 中可视化了模型输出的频谱。很明显,模型输出的低频分布都接近真实情况。然而,当涉及到高频分布时,QIREN 和 SIREN 都拟合得很好,其次是具有随即傅立叶特征(RFF)的基于 ReLU 的 MLP。基于 ReLU 和基于 Tanh 的 MLP 甚至缺乏信号的高频部分。
表 1. 模型在信号表示和图像超分辨率任务上的 MSE()。被认为是 SOTA 的模型标有 *。params 表示模型参数量,mem 表示与离散网格表示相比,模型节省的内存。
图 4. 声音表示任务中模型输出的频谱
QIREN 在图像表示任务中用最少的参数实现了最佳性能,与 SOTA 模型相比,误差最大减少了 34.8%。为了进一步探索模型的信号表示能力,我们使用滤波器来分离其输出的高频和低频分量,并分别比较这两个分量的拟合误差,结果如图 5 所示。QIREN 在拟合高频和低频分量时始终实现了最低的误差。
图 5. 与基于 Tanh 的 MLP 相比,每个模型的相对误差。阴影区域表示低频误差,而非阴影区域表示高频误差。
最新的研究引入了一个突破性的框架将隐式神经表征扩展到图像生成。更具体地说,该框架利用以随机分布为输入的超网络来生成隐式表征网络的参数。随后,这些生成的参数被分配给隐式表征网络。最后,隐式表征网络以坐标为输入生成图像。采用对抗性方法来确保生成的图像与我们期望的结果一致。在这项任务中,我们采用了这样一个框架,并建立在 StyleGAN2 的基础上。
实验结果如表 2 所示。我们还进一步探索了 QIREN 生成器的一些令人兴奋的特性,如图 6 和 7 所示。
表 2. 模型在 FFHQ 和 CelebA-HQ 数据集上的 FID 得分。
图 6. 开箱即用的超分辨率
图 7. 有意义的图像空间插值
总结
这项工作不仅将量子优势融入到隐式神经表示中,而且为量子神经网络开辟了一个有前景的应用方向 —— 隐式神经表征。值得强调的是,隐式神经表征还有许多其他潜在的应用,如表示场景或 3D 对象、时间序列预测和求解微分方程。对于一大类对连续信号建模的任务,我们都可以考虑引入隐式表征网络作为基本组件。基于本文的理论和实验基础,我们可以在未来的工作中将 QIREN 扩展到这些应用中,并且 QIREN 有望在这些领域中以更少的参数产生更好的结果。同时,我们为量子机器学习找到了一个合适的应用场景。从而促进量子机器学习社区内进一步的实践和创新研究。