随着机器学习模型变得越来越大、越来越复杂,它们需要更快、更节能的硬件来执行计算。传统的数字计算机正在努力跟上。
模拟光学神经网络可以执行与数字神经网络相同的任务,例如图像分类或语音识别,但由于计算是使用光而不是电信号执行的,因此光学神经网络的运行速度可以快很多倍,同时消耗更少的能量。
但是,这些模拟器件容易出现硬件错误,从而使计算精度降低。硬件组件中的微观缺陷是这些错误的原因之一。在具有许多连接组件的光学神经网络中,错误会迅速累积。
即使使用纠错技术,由于构成光学神经网络的设备的基本特性,一定程度的误差也是不可避免的。一个足够大的网络可以在现实世界中实现,这将太不精确而无法有效。
美国麻省理工学院的研究人员已经克服了这一障碍,并找到了一种有效扩展光学神经网络的方法。通过在构成网络架构的光开关中添加一个微小的硬件组件,它们甚至可以减少无法纠正的错误,否则这些错误会累积在设备中。
他们的工作可以实现一个超快速、节能的模拟神经网络,该网络可以以与数字神经网络相同的精度运行。使用这种技术,随着光电路变大,其计算中的误差量实际上会减少。
在模拟系统中,较大的电路应该有更高的误差,因此误差限制了可扩展性。在这里能够用明确的'是'来解决这些系统的可扩展性问题。
光倍增
光学神经网络由许多连接的组件组成,这些组件的功能类似于可重新编程的可调反射镜。这些可调谐镜被称为马赫-曾德尔推断仪(MZI)。神经网络数据被编码成光,光从激光发射到光学神经网络中。
典型的MZI包含两个反射镜和两个分束器。光进入MZI的顶部,在那里它被分成两部分,在被第二个分束器重新组合之前相互干扰,然后从底部反射到阵列中的下一个MZI。研究人员可以利用这些光信号的干扰来执行复杂的线性代数运算,称为矩阵乘法,这是神经网络处理数据的方式。
但是,随着光线从一个设备移动到下一个设备,每个MZI中可能发生的错误会迅速累积。可以通过提前识别它们并调整 MZI 来避免一些错误,以便阵列中以后的设备抵消早期的错误。
由于MZI的基本性质,在某些情况下,无法调整设备,因此所有光都从底部端口流向下一个MZI。如果设备在每一步都损失了一小部分光,并且阵列非常大,那么到最后将只剩下一点点功率。
即使有纠错,芯片的好坏也存在根本限制。MZI在物理上无法实现它们需要配置的某些设置。
因此,该团队开发了一种新型MZI。研究人员在设备的末端增加了一个额外的分束器,称其为3-MZI,因为它有三个分束器而不是两个。由于这种额外的分束器混合光线的方式,MZI更容易达到通过其底部端口将所有光从外发送所需的设置。
重要的是,额外的分束器的尺寸只有几微米,是一个无源元件,所以它不需要任何额外的布线。添加额外的分束器不会显著改变芯片的尺寸。
更大的芯片,更少的错误
当研究人员进行模拟以测试他们的架构时,他们发现它可以消除许多阻碍准确性的无法纠正的错误。随着光学神经网络变得越来越大,设备中的误差量实际上会下降——这与具有标准MZI的设备中发生的情况相反。
使用3-MZI,他们有可能创造出一个足够大的设备用于商业用途,误差减少了20倍,Hamerly说。
研究人员还开发了MZI设计的一种变体,专门用于相关误差。这些是由于制造缺陷而发生的——如果芯片的厚度略有错误,MZI 可能都偏离了大约相同的数量,因此错误都大致相同。他们找到了一种方法来更改MZI的配置,使其对这些类型的错误具有鲁棒性。这种技术还增加了光学神经网络的带宽,使其运行速度提高了三倍。
现在他们已经使用模拟展示了这些技术,Hamerly和他的合作者计划在物理硬件上测试这些方法,并继续朝着他们可以在现实世界中有效部署的光学神经网络发展。
领取专属 10元无门槛券
私享最新 技术干货