光子芯片可以更有效地运行1000万倍的光学神经网络

麻省理工学院的研究人员开发出一种新型“光子”芯片,它使用光而不是电 - 并且在此过程中消耗相对较少的功率。该芯片可用于处理大规模神经网络的效率比现有的计算机高出数百万倍。

神经网络是机器学习模型,广泛用于诸如机器人对象识别,自然语言处理,药物开发,医学成像和为无人驾驶汽车供电等任务。使用光学现象加速计算的新型光学神经网络可以比其电子对应物更快更有效地运行。

但随着传统和光学神经网络变得越来越复杂,它们消耗了大量的能量。为了解决这个问题,研究人员和主要技术公司 - 包括谷歌,IBM和特斯拉 - 开发了“AI加速器”专用芯片,可提高培训和测试神经网络的速度和效率。

对于电气芯片,包括大多数AI加速器,存在理论上的能耗最小限制。最近,麻省理工学院的研究人员开始开发用于光学神经网络的光子加速器。这些芯片更有效地执行数量级,但它们依赖于一些庞大的光学组件,这些组件限制了它们在相对较小的神经网络中的使用。

在物理评论X发表的一篇论文中,麻省理工学院的研究人员描述了一种新的光子加速器,它使用更紧凑的光学元件和光信号处理技术,大大降低了功耗和芯片面积。这使得芯片能够扩展到比其对应物大几个数量级的神经网络。

在MNIST图像分类数据集上对神经网络进行模拟训练表明,加速器理论上可以处理神经网络超过传统电子加速器能耗限制1000万倍以上,比光子加速器极限低1000倍。研究人员正在研究原型芯片,以实验证明结果。

“人们正在寻找可以计算超出能源消耗基本限制的技术,”电子研究实验室的博士后Ryan Hamerly说。“光子加速器很有前途......但我们的动机是建立一个可以扩展到大型神经网络的[光子加速器]。”

这些技术的实际应用包括减少数据中心的能耗。“对于运行大型神经网络的数据中心的需求不断增长,随着需求的增长,它在计算上越来越难以处理,”共同作者,电子研究实验室的研究生Alexander Sludds说。其目标是“通过神经网络硬件来满足计算需求......以解决能耗和延迟的瓶颈问题。”

加入Sludds和Hamerly的论文是:合着者,研究生Liane Bernstein,研究生;麻省理工学院物理学教授Marin Soljacic;和Dirk Englund,麻省理工学院电气工程和计算机科学副教授,RLE研究员,量子光子实验室负责人。

设计紧凑

神经网络通过包含互连节点(称为“神经元”)的许多计算层处理数据,以查找数据中的模式。神经元从其上游邻居接收输入并计算输出信号,该输出信号被发送到更下游的神经元。每个输入也被赋予“权重”,该值基于其对所有其他输入的相对重要性。随着数据通过层“更深”地传播,网络逐渐学习更复杂的信息。最后,输出层基于整个层的计算生成预测。

所有AI加速器都旨在减少在神经网络中特定线性代数步骤期间处理和移动数据所需的能量,称为“矩阵乘法”。在那里,神经元和权重被编码到行和列的单独表中,然后组合计算产出。

在传统的光子加速器中,编码有关于层中每个神经元的信息的脉冲激光流入波导并通过分束器。产生的光信号被馈送到方形光学元件的网格中,称为“Mach-Zehnder干涉仪”,其被编程以执行矩阵乘法。利用关于每个权重的信息编码的干涉仪使用信号干扰技术来处理光信号和权重值以计算每个神经元的输出。但是存在缩放问题:对于每个神经元,必须有一个波导,并且对于每个重量,必须有一个干涉仪。由于重量的数量与神经元的数量成正比,那些干涉仪占用了大量的空间。

“你很快意识到输入神经元的数量永远不会超过100左右,因为你不能在芯片上安装那么多组件,”哈默利说。“如果你的光子加速器每层不能处理超过100个神经元,那么就很难将大型神经网络应用到该架构中。”

研究人员的芯片依赖于更紧凑,节能的“光电”方案,该方案利用光信号对数据进行编码,但使用“平衡零差检测”进行矩阵乘法。这是一种在计算两个光信号的幅度(波高)的乘积之后产生可测量的电信号的技术。

利用关于每个神经网络层的输入和输出神经元的信息编码的光脉冲(其是训练网络所需的)流过单个信道。用矩阵乘法表中的整行权重信息编码的单独脉冲流过单独的信道。携带神经元和重量数据的光信号扇出到零差光电探测器的网格。光电探测器使用信号的幅度来计算每个神经元的输出值。每个探测器将每个神经元的电输出信号馈入调制器,调制器将信号转换回光脉冲。该光信号成为下一层的输入,依此类推。

该设计每个输入和输出神经元只需要一个通道,并且只有与神经元一样多的零差光电探测器,而不是重量。因为神经元总是远远少于重量,这节省了大量空间,因此芯片能够扩展到每层超过一百万个神经元的神经网络。

找到最佳点

对于光子加速器,信号中存在不可避免的噪声。馈入芯片的光越多,噪声越小,精度越高 - 但效率却相当低。较少的输入光会提高效率,但会对神经网络的性能产生负面影响。但伯恩斯坦说,这里有一个“最佳点”,它使用最小的光功率,同时保持准确性。

AI加速器的最佳位置是以执行单个两个数乘法运算所需的焦耳量来衡量的 - 例如在矩阵乘法期间。现在,传统的加速器以皮焦耳或千万亿焦耳来衡量。光子加速器以attojoules测量,效率高出一百万倍。

在他们的模拟中,研究人员发现他们的光子加速器可以以低于焦耳的效率运行。“在失去准确性之前,你可以发送一些最小的光功率。我们的芯片的基本限制比传统的加速器低得多......并且低于其他光子加速器,“伯恩斯坦说。