10.6 μm波长非线性全光衍射深度神经网络图像分类研究

摘要

一种基于光神经网络(ONN)的光子人工智能芯片，功耗低，延时低，抗干扰能力强。全光衍射深度神经网络近年来在图像分类任务中展示了其推理能力。但是物理模型的尺寸没有小型化和集成化，衍射神经网络没有考虑光学非线性。通过引入网络的非线性特性，可以高精度地完成复杂任务。在本研究中，一个非线性全光衍射深度神经网络(N-D²基于10.6的NN模型μ将非线性激活函数引入结构中，结合ONN和复值神经网络构造m波长。其中，选取整流线性单元(ReLU)的改进激活函数Leaky-ReLU、参数化ReLU (PReLU)和随机化ReLU (RReLU)作为N-D的激活函数²神经网络模型。通过数值模拟，证明了N-D²基于10.6的神经网络模型μm波长具有优异的表示能力，这使得它们能够分别很好地完成MNIST手写数字数据集和Fashion-MNIST数据集的分类学习任务。结果表明，N-D²采用RReLU激活函数的NN模型分类准确率最高，分别为97.86%和89.28%。这些结果为制备微型化、集成化N-D提供了理论依据²神经网络模型光子人工智能芯片。

1.简介

深度学习是机器学习的一个分支，已经成功地应用于各种应用，比如图像分类[1]、自然语言处理[2]，以及语音识别[3.］．一般来说，深度神经网络有一个显著的层，一个与许多参数的连接，使其具有很强的学习更好的特征表示的能力[4］．虽然学习网络权重的训练阶段可以在图形处理单元(GPU)上完成，但由于数百万次重复的内存引用和矩阵乘法，大型模型在推理过程中也需要足够的功耗和存储空间。光计算具有高带宽和速度，固有的并行处理，与数字实现的神经网络相比功耗低。光学神经网络(ONN)的各种方法已经被提出，包括带有LED阵列的Hopfield网络[5]，光电实现储层计算[5，6]，利用微米谐振器构建循环网络[7，8]，以及使用Mach-Zehnder干涉仪(MZIs)的全连接前馈网络[9］．ONN采用光学方法构建神经网络，神经网络有许多相互连接的线性层，具有并行处理、高密度布线和直接图像处理的独特优势。它可以通过自由空间光互连(FSOI)和波导光互连(WOI)两种方式实现。

FSOI可以通过空间光调制器(SLM)、微透镜阵列(MLA)和全息元件(HOE)实现ONN。HOE是一种根据全息术制作的光学元件，一般由感光薄膜[10，11］．许多研究者基于衍射原理对衍射光学元件进行了探索。Bueno等人引入了一个由多达2025个衍射光子节点组成的网络，形成了一个大规模递归光子网络。采用数字微镜装置(DMD)实现强化学习，取得了显著的收敛效果。网络由2025个非线性网络节点组成，每个节点是一个SLM像素。此外，DOE用于实现复杂的网络结构[12］．Sheler Maktoobi等人研究了30000个光子的衍射耦合光子网络，并详细描述了其可扩展性[13］．UCLA的Lin等人实现了全光衍射深度神经网络(D²神经网络)。他们在2018年将神经网络从芯片转移到现实世界，芯片依赖于光的传播，在深度学习中实现了几乎零消耗和零延迟[14，15］．物理模型由一个输入层、5个隐藏层和一个输出层组成。太赫兹波段光源照亮输入层，输入表面的相位或振幅编码光学信息。入射光通过输入层衍射，隐层调制光的相位或振幅。输出层的光电探测器阵列检测输出光的强度，并根据10个不同区域的光强度差异识别手写数字。更新后的相位对3D打印生成的衍射光栅进行建模。然而，该方案存在一些缺陷。除了缺乏小型化和集成化外，3d打印衍射光栅层还不能实时快速编程。2019年，该团队提出了基于上述架构的宽带衍射神经网络[16］．模型对光源的要求不再局限于单色相干光，框架的应用范围得到了扩展。然而，实验环境受太赫兹光源的限制，衍射光栅尺寸大不利于积分，且在D²在神经网络模型中，作者表示在仿真状态下不添加激活函数;因此，模型的非线性表示能力和泛化能力还有待提高。因此，我们在之前的工作中使用了相位光栅来取代3d打印的衍射光栅。二氧化碳激光器被用来发射10.6μm红外激光器，HgCdTe检测阵列用于检测输出层透射的光。每个神经元的大小可以减少到5个μM，使一个1毫米× 1毫米的相位光栅可以包含200 × 200个神经元。因此，这种衍射光栅将获得更广泛的应用[17］．该衍射光栅的优点是尺寸为1 mm × 1 mm，有利于全光D的小型化和集成化²神经网络的体系结构。

目前，复值神经网络[18]已成功用于多项任务[19- - - - - -27]，例如复杂数值数据的处理和分析，以及对复数进行直观映射的任务。图像和信号的波形变换或傅里叶变换已被用作复杂数值神经网络的输入数据[28］．在ONN中，由于光相位值的复杂性，需要广泛考虑光的相位和振幅。如果只使用实值神经网络，忽略虚参数，部分信息将忽略[29，30.］．因此，有必要将复值神经网络应用于光计算领域。

非线性激活函数被广泛应用于各种神经网络中。它通过学习输入和输出之间的复杂映射，在神经网络中发挥着至关重要的作用。如果神经网络中没有激活函数，无论有多少个神经网络，输出都是输入的线性组合。这意味着系统缺乏隐藏层，导致模型的非线性表示能力较低。目前，非线性激活函数主要有sigmoid、tanh、ReLU等。其中，ReLU最为常见，其原因有三:(1)解决了所谓的爆炸和梯度消失;(2)加速收敛[31]，(3)使部分神经元的输出为0，从而得到稀疏网络。ReLU激活函数包括Leaky-ReLU、PReLU和RReLU。这些函数提高了分类不同数据集的速度和准确性。ReLU激活函数允许网络本身引入稀疏性。该方法相当于无监督学习的预训练，大大缩短了学习周期。

在本研究中，一种全光学衍射深度神经网络(N-D²基于10.6的非线性激活函数的神经网络模型μM波长被提出。与加州大学洛杉矶分校的研究工作相比[14，15]，神经网络的特征尺寸减小了80倍，并通过仿真验证了模型的分类精度。该模型为今后的N-D研究提供了理论基础²10.6中的NN模型框架μ为进一步实现大规模集成、小型化的光子计算芯片奠定了基础。

综上所述，本研究的主要贡献如下:(1)N-D²基于10.6的非线性激活函数神经网络框架μ采用ONN和复值神经网络相结合的方法，提出了m波长。(2) N-D的表征能力²在实验仿真状态下，对具有ReLU改进激活函数的神经网络进行了评估，并给出了详细的评估过程。

本研究的其余部分组织如下。在我们的研究中使用的方法在章节中描述2．部分3.给出了实验结果。讨论在章节中报道4．最后，给出了结论。

2.材料与方法

本部分介绍了基于10.6改进衍射深度神经网络的基本理论和方法μM激光波长。首先，N-D的光学计算理论²基于10.6的神经网络μ引入M波长。然后，详细说明了网络模型的结构。最后，提高N-D的非线性表示能力²NN是一种改进的N-D方法²神经网络是通过在N-D中加入非线性激活函数得到的²神经网络模型。

2.1.光学计算

数字1为N-D的结构²神经网络。通过每个光栅的光由不同厚度的光栅网格调制，然后被次光栅上的所有光栅像素接收。这种网络连接方式类似于全连接神经网络。光栅的第一层接收输入图像，并对应于神经网络结构中的输入层。光栅的中间层对应神经网络结构中的隐藏层，检测平面对应神经网络结构中的输出层。不同光栅的高度不同，输入光的相位调制效应也不同，这对应于神经网络结构中的不同权重。

(一)

(b)

(c)

根据瑞利-索末菲衍射方程，神经元在N-D的每一层²NN可由二次波源方程计算，公式为[32，33]：在哪里l代表了l^th网络层，我代表了我^th层神经元l，r的欧几里得距离l层节点我而且l+ 1层节点，和．输入平面是0^thLayer，然后forl^th层(l≥1)时，输出字段可表示为在哪里属性的输出我^th神经元在l^th层(x，y，z)，表示神经网络中的非线性激活函数，其作用是将调制后的第二波神经元通过非线性单元传输到下一层，和．表示复调制，即: ，是次波的相对振幅，和表示输入波增加的相位延迟复值神经元调制函数在每个神经元上。为一天²神经网络结构只有相位，振幅认为是常数，忽略光学损耗时，理想状态为1。

2.2.N-D的架构²神经网络

为简化正演模型的表示，式(1)可重写为在哪里我指的是神经元的l^th层,p指下一层的一个神经元，与神经元相连我通过光学衍射。输入模式位于第0层。它一般具有复值量，可以在其相位通道和振幅通道中携带信息。照明平面波与输入光相互作用产生的衍射波函数可以表示为

当输入光经过多层光栅衍射后，在检测平面上输出结果图像。检测器对生成图像中的检测区域进行检测，得到网络分类结果。因此，需要在参数训练阶段对数据标签进行处理，并在不同标签的结果图像中设计相应的标签。如图所示2，通过判断生成图像检测区域中光照强度最高的区域，就可以得到生成图像所代表的标签。为了匹配不同长度的输入数据，与标签对应的结果图像也会缩放。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

(j)

(k)

输入光经多层光栅衍射后，在检测平面输出结果图像。检测器对得到的图像中的检测区域进行探测，得到网络分类结果。因此，需要在参数训练阶段对数据标签进行处理，并设计不同的标签来对应结果图像中的标记，如图所示2．通过判断结果图像检测区域中光照强度最高的区域，可以得到结果图像所代表的标签。与标签对应的结果图像需要缩放以匹配不同长度的输入数据。

为一天²神经网络包含N隐藏层，其输出层的光强可以表示为

探测器在输出平面上测量的强度被归一化，使它们位于每个样本的区间(0,9)。我_l用于表示在输出层中入射到探测器上的光信号总量l为归一化强度是

2.3.建议的方法

基于之前的研究，Lin等人没有考虑在D²神经网络框架。因此，在分类任务中，D²神经网络在非线性表示中是弱的。在这项研究中，N-D²提出神经网络模型体系结构，如图所示3.．假设一个神经元在物理上相当于一个ONN网格，经过调制的次波神经元通过非线性单元传输到下一层，如图所示3.．

(一)

(b)

2.3.1.复值神经网络

根据式(3.)时，波函数复形式的相位因子包含空间相位因子，所以振幅和空间相位因子的乘积是．可以用两个实数表示:实数部分，虚数部分．任何包含多个复变量的复值函数都可以用两个函数表示:

虽然在神经网络中直接使用和表示复数，但复数定义了两部分之间的相互作用。用欧拉常数作为极性形式的等效表示，

由于需要更多的操作，复杂的参数增加了神经网络的复杂性。因此，方程(7)及(8)可根据所选择的实现方式和表示方式使用，可显著降低计算复杂度。输入的乘积和复数权矩阵计算公式如下:

因此，这种交换意味着模型设计需要重新考虑，以简化结构。一个在实值参数下表现不佳的深度学习框架可能适用于复值参数。根据[的实验结果34]，实值数据不需要这种结构。的虚部为零，则方程(9)可简化为

对于训练来说，这意味着实部而且主导实值数据点的整体分类。

2.3.2.激活函数

激活函数可以增强非线性的表示能力，执行复杂的深度学习任务。但在一些非线性激活函数中，如sigmoid和tanh，它们有两个缺点:(1)在反向传播计算误差梯度和计算激活函数(指数函数)时，求导涉及除法，因此计算量比较大;(2)当sigmoid接近饱和区域时，变换速度太慢，导数趋于零。这种情况会导致信息丢失。在所有这些非线性激活函数中，最引人注目的是校正线性单元(ReLU) [35］．一般认为ReLU的优异性能来自于稀疏性[36，37］．它减少了参数间的相互依赖，缓解了过拟合问题的发生。ReLU也有一些改进，如漏校正线性(leaky -ReLU)、参数校正线性(PReLU)、随机校正线性(RReLU)，即ReLU族函数。这些ReLU族函数提高了神经网络训练的速度和准确性。在本节中，介绍三种整流单元:Leaky-ReLU, PReLU和RReLU。如图所示4．

(一)

(b)

(c)

数字4(一)给出了ReLU的数学模型，该模型首次应用于受限玻尔兹曼机。这是一个分段线性函数，将负的部分切为零，并保留正的部分。通过ReLU后，激活是稀疏的。形式上，整流线性激活被定义为其中输入信号输出为0;当输入信号，输出等于输入信号。

数字4 (b)为Leaky-ReLU和PReLU的数学模型。ReLU将所有负值设置为零。相比之下，leaky - relu(漏校正线性单元)为所有负值分配一个非零斜率。在声学模型中首次提出Leaky-ReLU激活函数[38］．数学上定义为在哪里为范围(0,1)内的固定参数。在Leaky-ReLU函数中选择0.2。

PReLU由He等人提出。[39］．作者报告说，在大规模图像分类任务中，它的性能要比ReLU好得多。在PReLU函数中，负部分的斜率是从数据中学习的，而不是预先定义的。PReLU函数学习通过方程训练时的反向传播(12）.

数字4 (c)RReLU的数学模型为Leaky-ReLU的随机化版本。它首先被提出并在Kaggle NDSB比赛中使用。RReLU的亮点在于，在训练过程中，随机数是从均匀分布中抽样的吗．数学术语定义为在哪里在区间内是任意常数吗，而且．由NDSB竞赛获胜者建议，是从U(3,8).在本研究中，使用相同的配置。

2.3.3.模型训练

前向传播模型将物理输出平面的结果与衍射网络的训练目标进行比较，生成的误差传播迭代更新到衍射网络的每一层。根据报告[15]， N-D的损失函数采用交叉熵函数²NN，显著提高了MNIST数据集的分类精度[40]和Fashion-MNIST数据集[41),分别。N-D的输出结果²神经网络与输入值进行比较。利用误差反向传播对光栅参数进行迭代，根据N-D的输出定义损失函数²基于目标特征的神经网络。交叉熵函数作为神经网络的损失函数。根据下式，定义交叉熵函数为在哪里表示神经网络中Softmax层的输出值，Softmax回归可以看作是一种优化分类结果的学习算法。表示实际图像输出值，和表示输出平面的归一化强度。训练N-D²将NN模型转换为数字分类器，采用MNIST手写数字数据集和Fashion-MNIST数据集作为输入层。

在数据5(一个)而且5 (b)分别为MNIST数据集在模拟状态下训练后各层衍射光栅高度分布的灰度图像和RGB图像，(c)和(d)分别为衍射光栅各层输出的灰度图像和RGB图像。为了判断得到的图像的准确性，首先要去除检测区域对背景信息的影响。然后，利用检测区域模板提取得到的图像，得到预测标签。入射光通过输入光栅和光栅层L1-L6后，最终光栅结果图像中光强最大的区域与图中检测区域标签7的位置一致5(c)和5(d).数字5(e)和5(f)分别为Fashion-MNIST数据集在模拟状态下训练后各层衍射光栅高度分布的灰度图像和RGB图像，(g)和(h)分别为衍射光栅各层输出的灰度图像和RGB图像。入射光通过输入光栅和光栅层L1-L6后，最终光栅结果图像中光强最高的区域与图中检测区域标签9(踝靴)的位置一致5(g)和5(h)。

(一)

(b)

一天²NN使用Python(3.6.4)和TensorFlow (v1.10.0，谷歌Inc.)框架执行。该模型在一台台式计算机上训练，该计算机具有GeForce GTX TITAN V图形处理单元(GPU)和Intel (R) Core (TM) i7-8700K CPU, 3.70 GHz和64 GB RAM，运行Windows 10操作系统(Microsoft)。N-D的训练时间和推理时间²在MNIST数据集和Fashion-MNIST数据集上使用三个RELU激活函数的NN模型如表所示1而且2,分别。从表1而且2，可以看出N-D²与MNIST和Fashion-MNIST数据集上的其他激活函数相比，具有RReLU函数的NN模型需要最少的训练时间和推断时间。在训练阶段，Leaky-ReLU模型和PReLU模型在数据集上实现了相同的训练时间。但Leaky-ReLU模型的推理时间比PReLU模型快。在Kaggle NDSB比赛中，据报道在RReLU函数中由于其训练的随机性是有利的，可以减少过拟合。因此，无论在推理时间、训练时间还是识别精度上，RReLU函数都具有优势。的中的Leaky-ReLU函数是固定的，并且在PReLU函数变化的基础上进行数据分析;因此，PReLU函数的推理时间略长于Leaky-ReLU函数。


	培训时间(h)
	MNIST	Fashion-MNIST

Leaky-ReLU	28.1	28.2
PReLU	28.1	28.2
RReLU	27.9	28.0


	推理时间(秒)
	MNIST	Fashion-MNIST

Leaky-ReLU	0.12	0.14
PReLU	0.13	0.16
RReLU	0.11	0.13

3.实验结果

测试N-D的性能²在章节中介绍了NN结构、MNIST数据集和Fashion-MNIST数据集3．1．部分3.2给出了评价方法。业绩评价载于节3．3．部分3.4讨论了与不含非线性激活函数的神经网络框架的表示能力结果的比较。

3.1.MNIST数据集和Fashion-MNIST数据集

本研究在10.6的基础上，在输入层使用MNIST手写数字数据集和Fashion-MNIST数据集作为训练数字分类器μ米一天²神经网络模型。MNIST数据集是由数字0-9组成的手写数字数据集。该数据集由四部分组成:训练集图像、训练集标签、测试集图像和测试集标签。MNIST数据集来自美国国家标准与技术研究所(NIST)。训练和测试集混合了来自两个数据库的手写数字，一个来自高中生，另一个来自人口普查局。MNIST手写数据集包含60,000个样本的训练集和10,000个样本的测试集。MNIST数据集中的每张图像都包含28 × 28像素，这些数字被标准化并固定在中心。

Fashion-MNIST数据集是一个10类服装数据集，它取代了MNIST手写数字数据集。它具有与MNIST数据集相同数量的训练集、测试集和图像分辨率。然而，与MNIST数据集不同的是，Fashion-MNIST数据集不再是一个抽象的数字符号，而是一个更具体的服装类型。MNIST数据集和Fashion-MNIST数据集中的每个训练样本和测试样本都按照表中的类别进行标记3.．


标签数量	MNIST数据集类别	Fashion-MNIST数据集类别

0	0	t恤
1	1	裤子
2	2	套衫
3.	3.	衣服
4	4	外套
5	5	凉鞋
6	6	衬衫
7	7	运动鞋
8	8	袋
9	9	及踝靴

3.2.评价方法

表中列出了包含10类的混淆矩阵4．首先，每个类别H_我（我= 0-9)需要计算10在一个混淆矩阵[42］．然后，针对单个类，用TP定义评价方法_我, FN_我, TN_我，和FP_我．下面的公式可以表示所提分类器的准确率: 在哪里表示预测样本的总体为真，而真实样本为真H_我；表示预测样本的总和为假，而真实样本为假H_我；表示预测样本的总和为真，真实样本为假H_我；而且表示预测样本的总体为假，而真实样本为真H_我，测试样本的总数表示为N．


		预测
		0	1	2	.．.	8	9

真正的	0				.．.
	1				.．.
	2				.．.
	.．.	.．.	.．.	.．.	.．.	.．.	.．.
	8				.．.
	9				.．.

3.3.绩效评估

在本研究中，N-D中的超参数²基于10.6的神经网络模型μm波长，如表所示5而且6．


光栅参数	数值

波长	10.6μ米
细胞的大小	5μ米
光栅间距	30λ


训练参数	数值

光栅层	6
每层神经元数	100 × 100
批量大小	One hundred.
时代	50
学习速率	0.05

神经网络的超参数选择采用网格搜索法，光栅层数属于神经网络的超参数。在仿真状态下，选取网络模型中的每批数据为100。为减少仿真时间，循环次数为10次，像素尺度为28 × 28，损失函数为交叉熵函数，优化器为Adam优化器，学习率选择0.01。

N-D的光栅层数²基于10.6的神经网络μM波长会影响最终的分类结果，这也是该神经网络相对于其他线性网络的独特优势。数字6为N-D方向不同光栅层的识别精度²具有各种激活函数的神经网络模型。当光栅层数≤5层时，神经网络模型的分类精度随着光栅层数的增加而提高。当光栅层数为>5时，分类精度达到饱和。一般来说，神经网络越深，其特征表示能力越强。此外，神经网络在图像分类任务中有较好的表现。然而，神经网络层数的选择也很大程度上取决于输入数据特征的维数。如果输入数据的特征维数较低，神经网络的层数较深，在训练过程中容易造成特征信息的丢失和饱和。因此，其分类精度趋于饱和甚至下降。因此，在模拟实验环境下，光栅层数选择为6层。

在确定神经网络模型中光栅层数后，对模型超参数中衍射光栅的像素尺度和间距进行优化，其中光栅层数为6层。在N-D²Leaky-ReLU、PReLU、RReLU三个激活函数对应的神经网络模型、像素大小和分类精度如表所示7- - - - - -10,分别。


精度(%)		像素大小
精度(%)		30 × 30	40 × 40	50 × 50	60 × 60	70 × 70	80 × 80	90 × 90	100 × 100

间距(λ）	30.	93.16	94.98	95.20	95.83	96.30	96.01	96.51	96.58
	40	90.40	94.13	95.39	95.86	95.95	95.96	96.35	96.55
	50	80.79	93.74	95.04	95.64	95.79	95.98	96.35	96.55
	60	77.74	92.52	94.00	95.51	95.63	95.83	96.21	96.44
	70	68.84	89.87	93.73	95.16	95.42	96.03	96.10	96.25


精度(%)		像素大小
精度(%)		30 × 30	40 × 40	50 × 50	60 × 60	70 × 70	80 × 80	90 × 90	100 × 100

间距(λ）	30.	92.54	94.97	95.41	95.71	95.92	96.25	96.55	96.67
	40	90.02	94.51	95.02	95.67	95.88	96.23	96.41	96.44
	50	86.49	93.46	94.67	95.64	95.69	95.93	96.21	96.46
	60	77.18	92.72	94.43	95.42	95.38	96.12	96.16	96.48
	70	69.05	90.49	94.11	95.06	95.69	95.77	96.00	96.19


精度(%)		像素大小
精度(%)		30 × 30	40 × 40	50 × 50	60 × 60	70 × 70	80 × 80	90 × 90	100 × 100

间距(λ）	30.	93.10	94.93	95.08	95.81	96.06	96.15	96.35	96.78
	40	90.45	94.16	95.19	95.81	95.71	96.05	96.43	96.47
	50	85.01	93.78	95.12	95.39	95.90	95.99	96.28	96.23
	60	84.44	92.85	94.43	95.24	95.59	96.06	96.14	96.35
	70	68.88	91.27	93.71	95.03	95.49	95.67	95.85	96.08


精度(%)		像素大小
精度(%)		30 × 30	40 × 40	50 × 50	60 × 60	70 × 70	80 × 80	90 × 90	100 × 100

间距(λ）	30.	84.27	86.42	87.36	86.94	86.64	86.56	86.52	86.50
	40	82.18	86.23	87.07	87.44	86.67	86.61	86.94	86.77
	50	75.45	86.14	85.94	87.59	87.12	86.72	86.83	87.03
	60	64.99	83.27	87.10	87.14	87.41	86.94	86.80	86.97
	70	61.90	83.04	86.83	87.65	86.96	86.88	86.75	86.59

从表格中可以看出5- - - - - -8，当神经网络模型中衍射光栅间距固定时，精度一般随像素大小而增加。当神经网络模型中衍射光栅像素大小一定时，其精度一般随衍射光栅间距的增大而降低。当模型选择RReLU激活函数时，像素大小为100 × 100，衍射光栅间距为30λ；神经网络具有最高的识别精度。

最后，对模型中Adam优化器的学习率进行了优化。数字7为N-D的分类精度²NN模型与RReLU添加到MNIST数据集。其中，选择学习率分别为0.01、0.025、0.05、0.075。从图中可以看出7学习率为0.05时，模型的分类准确率最高。

Fashion-MNIST数据集的选定超参数由N-D计算²利用上述方法对神经网络模型进行优化，选取的超参数与MNIST数据集中的模型一致。激活函数没有加入到标准N-D中²基于10.6的神经网络模型μm波长，模拟状态下获得的MNIST (Fashion-MNIST)数据集分类准确率为86.78%(81.10%)。

如图所示8(一个)，为标准N-D的分类精度²MNIST数据集中每个标签的NN模型都不一样，其中标签1的模型分类准确率高达98%。但是，该模型对标签8的分类准确率仅为73%。在图8 (b)，为标准N-D的分类精度²Fashion-MNIST数据集中每个数字的NN模型都不一样，标签8的模型分类准确率高达95%。但是，该模型对标签6的分类准确率仅为35%。可以看出，标准N-D的非线性拟合能力和泛化能力²没有激活函数的神经网络模型是脆弱的。从准确率曲线可以看出，当历元为50时，模型识别的准确率趋于饱和。

(一)

(b)

3.4.与N-D的比较²神经网络框架

与N-D的测试结果比较²节中给出了具有ReLU族非线性激活函数的神经网络结构3．3．实验模拟结果表明N-D²具有不同非线性激活函数的神经网络框架显著提高了表示能力。N-D中非线性激活函数的必要性²证明了神经网络框架。在N-D中选择Leaky-ReLU、PReLU和RReLU函数作为激活函数²神经网络模型。仿真得到的MNIST数据集和Fashion-MNIST数据集的分类精度结果如表所示11．


激活功能	精度(%)
	MNIST	Fashion-MNIST

Leaky-ReLU	97.76	89.24
PReLU	97.68	89.28
RReLU	97.86	89.28

其中，带有RReLU函数的神经网络对MNIST数据集的分类准确率为97.86%。与[14，15]表示N-D的分类精度²基于10.6的神经网络模型μM提高0.05%。基于PReLU和RReLU函数的神经网络对Fashion-MNIST数据集的分类准确率为89.28%。该理论证明了在模型中引入ReLU族激活函数的正确性。数字9为N-D的精度和混淆矩阵图像²具有不同激活函数的神经网络。

(一)

(b)

(c)

(d)

(e)

(f)

图9

(a)基于Leaky-ReLU函数的神经网络对MNIST数据集的准确率和混淆矩阵。(b) PReLU函数神经网络对MNIST数据集的准确率和混淆矩阵。(c) RReLU函数神经网络对MNIST数据集的准确率和混淆矩阵。(d)基于Leaky-ReLU函数的神经网络对Fashion-MNIST数据集的准确率和混淆矩阵。(e) PReLU函数神经网络对Fashion-MNIST数据集的准确率和混淆矩阵。(f) RReLU函数神经网络对Fashion-MNIST数据集的准确率和混淆矩阵。

根据精度图像，当模型中epoch为50时，模型的识别精度区域是饱和的。混淆矩阵表明，在具有三个激活函数的神经网络MNIST数据集中，每个标签的分类准确率都在94%以上。其中，具有三个激活函数的模型对标签0和标签1的识别准确率高达99%。但该模型对标签9的分类能力略差，准确率分别为94%、97%、94%。这可能是由于标签9、标签4和标签8之间有很高的相似性，所以模型错误地将标签9划分为其他标签。数字10为MNIST数据集中各种神经网络模型对各种标签的识别准确率。可以看出，在MNIST数据集中，具有三个ReLU族激活函数的模型对每个标签的识别精度都高于不具有激活函数的标准模型。

根据精度图像，当模型中epoch为50时，模型的识别精度区域也是饱和的。混淆矩阵表明，在具有三个激活函数的神经网络Fashion-MNIST数据集中，除标签4和标签6外，其他标签的分类准确率均在80%以上。其中，具有三个激活函数的模型对标签8的识别准确率分别高达98%、96%和97%。但是，该模型对标签6的分类能力略差，准确率分别为58%、66%和62%。标签6(衬衫)的模型识别精度较低，可能是由于错误地将标签0 (t恤)、标签2(套头衫)和标签4(大衣)进行了划分。数字11为Fashion-MNIST数据集中各种神经网络模型对各种数字的识别准确率。可以看出，在Fashion-MNIST数据集中，具有三个ReLU族激活函数的模型对每个标签的识别精度都高于不具有激活函数的标准模型。

4.讨论

非线性激活函数可以提高传统深度学习的表示能力。然而，在之前的工作中，光学非线性没有被纳入到深度光网络设计中，因此没有证明非线性效应是否能提高N-D的表示能力²神经网络框架。在本研究中，将非线性激活函数加入到N-D中²神经网络框架。非线性N-D的表示能力²神经网络框架和线性N-D²分析了神经网络框架，证明了非线性激活函数可以提高神经网络在N-D中的表示能力²神经网络框架。所提出的理论也可以推广到任何具有所需波长的激光器，即适用于全光D的衍射光栅²神经网络模型。

在实际应用中，实现非线性激活函数的方法有三种。第一种是非线性材料，包括晶体、聚合物或半导体。任何三阶非线性材料，都具有很强的三阶光学非线性χ(3)、可用来形成非线性衍射层:玻璃(As₂年代_3.例如，金属纳米粒子掺杂玻璃)、聚合物(例如聚二乙炔)、有机薄膜、半导体(例如砷化镓、硅和cd)和石墨烯。第二种方法是可饱和吸收材料，如半导体、量子点薄膜、碳纳米管，甚至石墨烯薄膜，可以用作N-D的非线性元素²神经网络。最近，一种具有强光学克尔效应的材料[43，44]为深度衍射神经网络架构带来了光明。第三种方法是在N-D层中引入光学非线性²利用直流电光效应进行神经网络。这是一个偏离器件的全光学操作，衍射神经网络的每一层都有一个直流电场。这个电场可以外部施加到N-D的每一层²神经网络。

此后，石墨烯和硫化镉(cd)在非线性光学领域取得了一系列重要的研究成果。在接下来的工作中，我们将利用上述材料的非线性饱和吸收系数拟合光学限制效应函数，并将其作为小型化非线性衍射深度神经网络中的激活函数。在仿真状态下，N-D的分类精度²对非线性光学材料的神经网络模型进行验证。一是材料镀膜的方法，即在锗材料的衍射光栅上镀一层石墨烯或CdS材料，实现N-D的物理建立²神经网络模型。另一种方法是使用石墨烯和CdS等非线性材料直接制造衍射光栅。

5.结论

在这项研究中，N-D²基于10.6的神经网络结构μ提出了基于光神经网络和复值神经网络的M波长非线性激活函数，并通过仿真验证了其正确性。实验结果表明，使用三个ReLU函数，N-D²神经网络框架的分类性能优于不使用非线性激活函数N-D的分类性能²神经网络框架。证明了N-D中非线性激活函数的必要性²神经网络框架。可以提高识别精度。与D比较²文献中的神经网络模型[14，15， N-D²采用RReLU函数的神经网络模型对MNIST数据集的识别精度提高0.05%。但目前仍面临两个挑战:一是在物理模型中找到相应的非线性光学材料。二是在N-D中可能存在更好的非线性激活函数²神经网络框架。这两点是今后需要完成的工作。在后续研究中，将对神经网络模型进行进一步优化。非线性激活函数更适合于N-D²进一步搜索NN，为实现N-D提供理论依据²NN物理系统10.6μ米波长。

数据可用性

再现这些发现所需的原始/处理数据目前不能共享，因为这些数据也是正在进行的研究的一部分。

利益冲突

作者宣称不存在利益冲突。

致谢

本研究得到北京市教委科技计划一般项目(no.;KM202011232007)、高校学科人才引进计划(批准号:KM202011232007);北京市信息科技内涵发展项目(批准号:D17021);2019 kynh204)。作者感谢所有参与本研究的参与者。

参考文献

A. Krizhevsky, I. Sutskever和G. Hinton，“深度卷积神经网络的ImageNet分类”，在NIPS论文集， Curran Associates Inc, 2012年1月。视图:谷歌学者
K. Cho, B. Van Merrienboer, C. Gulcehre等人，“使用RNN编码器-解码器进行统计机器翻译学习短语表示”，在2014年自然语言处理经验方法会议论文集， 2014年10月，卡塔尔多哈。视图:谷歌学者
A. Graves, A. R. Mohamed和G. Hinton，“深度循环神经网络的语音识别”，在IEEE声学、语音和信号处理国际会议论文集， IEEE，温哥华，加拿大，2013年5月。视图:谷歌学者
Y. LeCun, Y. Bengio, G. Hinton，《深度学习》自然，第521卷，no。《中国日报》，2015年第4期，页436-444。视图:出版商的网站|谷歌学者
N. H. Farhat, D. Psaltis, A. Prata和E. Paek，“Hopfield模型的光学实现”，应用光学，第24卷，no。10，第1469页，1985年。视图:出版商的网站|谷歌学者
L. Appeltant, M. C. Soriano, d. S. G. Van等人，“使用单一动态节点作为复杂系统的信息处理，”自然通讯，第2卷，第468页，2011。视图:出版商的网站|谷歌学者
A. N. Tait, T. F. D. Lima, E. Zhou等人，“使用硅光子权重库的神经形态光子网络，”科学报告，第7卷，no。1, 2017。视图:出版商的网站|谷歌学者
A. N. Tait, M. A. Nahmias, B. J. Shastri，和P. R. Prucnal，“广播和重量:可扩展光子尖峰处理的集成网络”，光波技术杂志，第32卷，no。21, pp. 4029-4041, 2014。视图:出版商的网站|谷歌学者
Y. Shen, n.c. Harris, S. Skirlo等人，“相干纳米光子电路的深度学习”，自然光子学，第11卷，no。7，第441页，2017年。视图:出版商的网站|谷歌学者
A. Zanutta, E. Orselli, T. Fäcke和A. Bianco，“用于高精度衍射光学的高可调谐折射率调制的光聚合物薄膜”，光学材料快车，第6卷，no。1，页252-263,2015。视图:出版商的网站|谷歌学者
R. Pashaie和N. H. Farhat，“电子捕获材料薄膜中生物激发的尖刺神经元的光学实现”，应用光学，第46卷，no。35, pp. 8411-8418, 2007。视图:出版商的网站|谷歌学者
J. Bueno, S. Maktoobi, L. Froehly等人，“大规模光子循环神经网络中的强化学习”，视神经节，第5卷，no。6，页756-760,2018。视图:出版商的网站|谷歌学者
S. Maktoobi, L. Froehly, L. Andreoli等人，“光子网络的衍射耦合:我们能走多远?”IEEE量子电子学专题杂志，第26卷，no。1，页1 - 8,2020。视图:出版商的网站|谷歌学者
X. Lin, Y. Rivenson, N. T. Yardimci等人，“使用衍射深度神经网络的全光机器学习”，科学，第361卷，no。6406, pp. 1004-1008, 2018。视图:出版商的网站|谷歌学者
D. Mengu, Y. Luo, Y. Rivenson, A. Ozcan，“衍射光学神经网络的分析及其与电子神经网络的集成”，IEEE量子电子学专题杂志，第26卷，no。1，页1 - 14,2020。视图:出版商的网站|谷歌学者
Y. Luo, D. Mengu, N. T. Yardimci等，“利用宽带衍射神经网络设计任务专用光学系统”，光:科学与应用，第8卷，no。1，页1 - 14,2019。视图:出版商的网站|谷歌学者
吕磊，曾志刚，朱磊等，“用于深度神经网络的微型化衍射光栅设计与加工”，IEEE光子学技术通讯，第31卷，no。24，页1952-1955,2019。视图:出版商的网站|谷歌学者
T. L. Clarke，“神经网络泛化到复平面”，在1990年IJCNN神经网络国际联合会议论文集，第2卷，第435-440页，圣地亚哥，加州，美国，1990年6月。视图:谷歌学者
N. Benvenuto和F. Piazza，“关于复杂反向传播算法”IEEE信号处理汇刊，第40卷，no。4，第967-969页，1992。视图:出版商的网站|谷歌学者
g.m. Georgiou和C. Koutsougeras，“复杂域反向传播”，IEEE电路与系统汇刊2:模拟与数字信号处理，第39卷，no。5，第330-334页，1992。视图:出版商的网站|谷歌学者
T. Nitta，“复数神经网络的反向传播算法”，在1993年神经网络国际会议论文集，第2卷，第1649-1652页，日本名古屋，1993年10月。视图:谷歌学者
I. Aizenberg和C. Moraga，“基于多值神经元(mlmvn)和反向传播学习算法的多层前馈神经网络”，软计算，第11卷，no。2, pp. 169-183, 2007。视图:出版商的网站|谷歌学者
N. N. Aizenberg和I. N. Aizenberg，“基于多值神经元作为灰度图像联想记忆模型的Cnn”，在CNNA ' 92论文集第二届细胞神经网络及其应用国际研讨会，第36-41页，1992年10月，德国慕尼黑。视图:出版商的网站|谷歌学者
D. C Park和T. K. Jeong，“用于数字卫星信道均衡的复双线性循环神经网络”，IEEE神经网络汇刊，第13卷，no。3, pp. 711-725, 2002。视图:出版商的网站|谷歌学者
s.l. Goh, M. Chen, D. H. popovivic, K. Aihara, D. Obradovic，和D. P. Mandic，“风廓线的复值预测”，可再生能源，第31卷，no。11, pp. 1733-1750, 2006。视图:出版商的网站|谷歌学者
Y. Ozbay，“一种新的ecg心律失常检测方法:基于复离散小波变换的复值人工神经网络，”医学系统杂志，第33卷，no。6，第435页，2008。视图:出版商的网站|谷歌学者
a . B. Suksmono和a . Hirose，“基于复值MRF模型的InSAR图像自适应降噪及其在相位展开问题中的应用”，地球科学与遥感汇刊，第40卷，no。3, pp. 699 - 709,2002。视图:出版商的网站|谷歌学者
A. Hirose，“复值神经网络:优点和起源”，在2009年神经网络国际联合会议论文集，页1237-1244，亚特兰大，佐治亚州，美国，2009年6月。视图:谷歌学者
张震，王海辉，徐飞，杨永强。金，“复值卷积神经网络及其在极化sar图像分类中的应用”，地球科学与遥感汇刊，第55卷，no。12, pp. 7177-7188, 2017。视图:出版商的网站|谷歌学者
H.-G。齐默尔曼，A. Minin和V. Kusherbaeva，“用梯度下降和随机搜索算法训练的复值和实值神经网络的比较”，见第19届欧洲人工神经网络研讨会论文集，第18卷，比利时布鲁日，2011年4月。视图:谷歌学者
徐斌，王楠，陈涛等，“卷积网络中校正激活的实证评估”，2015，https://arxiv.org/abs/1505.00853．视图:谷歌学者
V. Bianchi, T. Carey, L. Viti等人，“来自液相剥离石墨的太赫兹饱和吸收剂，”自然通讯， vol. 8, Article ID 15763, 2017。视图:出版商的网站|谷歌学者
j.w.古德曼，傅里叶光学导论，罗伯茨和公司出版社，绿林村，CO .，美国，2005年。
N. Mönning和S. Manandhar，“复值神经网络对实值分类任务的评估”，2018，https://arxiv.org/abs/1811.12351．视图:谷歌学者
V. Nair和G. E. Hinton，“修正线性单元改进受限玻尔兹曼机”，在第27届国际机器学习会议论文集，第807-814页，海法，以色列，2010年6月。视图:谷歌学者
Yi Sun, X. Wang，和X. Tang，“深度学习的面部表征是稀疏的，选择性的和稳健的，”2014，https://arxiv.org/pdf/1505.00853．视图:谷歌学者
X. gloria, A. Bordes和Y. Bengio，“深度稀疏整流网络”，见第14届人工智能与统计国际会议论文集，第15卷，pp. 315-323, JMLR W&CP，劳德代尔堡，佛罗里达州，美国，2011年4月。视图:谷歌学者
Maas, L. Andrew, Hannun, Y. Awni，和A. Y. Ng，“整流器非线性改进神经网络声学模型”，在ICML会议记录，第30卷，韩国大邱，2013年11月。视图:谷歌学者
K. He, X. Zhang, S. Ren等人，“深入研究整流器:在ImageNet分类上超越人类水平的性能”，在2015年IEEE计算机视觉国际会议论文集， IEEE，圣地亚哥，智利，2015年12月。视图:谷歌学者
Y. Lecun, L. Bottou, Y. Bengio和P. Haffner，“基于梯度的学习应用于文档识别”，IEEE论文集，第86卷，no。11，页2278-2324,1998。视图:出版商的网站|谷歌学者
H. Xiao, K. Rasul，和R. Vollgraf，“时尚- mnist:用于基准机器学习算法的新图像数据集”，2017，https://arxiv.org/abs/1708.07747．视图:谷歌学者
Xiao Y.， Qian H.，和Z. Liu，“基于金量子阱巨大光学Kerr响应的非线性超表面，”Acs光子学2018年第5卷。视图:出版商的网站|谷歌学者
D. M. W. Powers，“评价:从精密度、召回率和F-measure到ROC、知情度、标记性和相关性”机器学习技术杂志， vol. 2, pp. 37-63, 2011。视图:出版商的网站|谷歌学者
x阴,t·冯、z .梁和j·李,“人工Kerr-type中使用超材料”光学表达，第20卷，no。8, pp. 8543-8550, 2012。视图:出版商的网站|谷歌学者

国际光学杂志