计算机视觉中轻量级任务的小网络:一种基于特征表示的剪枝方法

摘要

目前许多卷积神经网络由于网络参数庞大，难以满足实际应用需求。为了加快网络的推理速度，网络压缩越来越受到人们的重视。网络剪枝是最有效、最简单的压缩和加速网络的方法之一。本文提出了一种针对轻量级任务的剪枝算法，并研究了一种基于特征表示的剪枝策略。与其他修剪方法不同的是，该策略以实际任务为指导，消除了网络中不相关的过滤器。修剪后的网络被压缩到较小的尺寸，易于通过微调恢复精度。在已知的图像数据集上验证了所提算法的性能，实验结果表明，所提算法更适合于对微调数据集的不相关滤波器进行修剪。

1.简介

近几十年来，深度学习得到了快速发展，各种新型神经网络层出不穷，尤其是卷积神经网络(convolutional neural networks, cnn)。在图像分类中，卷积层起着越来越重要的作用。然而，随着cnn性能的提高，网络参数的数量也在增加，这使得cnn在实际应用中难以应用。此外，cnn结构中存在大量冗余参数[1]，严重影响网络传播速度。因此，近年来网络压缩问题越来越受到研究者的重视，并针对这一问题提出了各种解决方案。cnn的压缩方法主要分为四类:结构优化、量化与精度约简、知识蒸馏和网络剪枝。来自RCNN [2]及FastRCNN [3.]到FasterRCNN [4]，对网络结构进行了修改，通过减少重复计算的次数来加快推理速度。同样，MobileNet [5]是谷歌在2017年提出的建议，它通过卷积层的因式分解推导出参数的数量。在那之后，桑德勒等人。6]提供了MobileNetV2，通过添加剩余结构对网络进行修正。除了RCNN和MobileNet上的结构优化外，IGCV的序列[7- - - - - -9]通过交错群卷积提高了网络性能。虽然上述结构优化方法取得了很大的成功，但很难设计出一种新的结构来提高网络效率。为此，研究了在嵌入式设备中配置cnn的量化和精度降低方法。蔡等人。[10]通过Hessian矩阵测量网络参数的权重，并根据最小权重量化误差对网络进行量化。Zhou等。[11]通过在损失函数中加入稀疏约束，并在卷积层中压缩稀疏矩阵，对训练中的网络进行优化。彭等人。[12]通过滤波器组近似压缩网络。Courbariaux等人。[13介绍了一种训练二值化神经网络的方法。Rastegariy [14]提出了XONR-Net，通过将输入内容转换为二值化类型，进一步优化二值化网络。二值化有助于提高前向传播的速度，但它依赖于特定的硬件，网络的精度不能满足复杂的要求。不仅推动了网络结构的改进，而且对培训方式也给予了极大的重视。2015年NIPS, Hinton等人[15提出了以大网络培养小网络的知识蒸馏，显示了师生模式的巨大潜力，是知识蒸馏的开端。此后，知识蒸馏作为网络压缩的新方向受到了学者们的广泛关注，[16- - - - - -18将知识的提炼推向更有用、更有解释性的阶段。但知识蒸馏在训练中也面临收敛困难、可解释性差的问题。与上述工作不同，网络剪枝要简单得多，也更有用。为了找到适合微调数据集的网络结构，提出了一种基于特征表示的剪枝算法，本文的主要贡献如下:(1)该算法通过特征表示将样本和滤波器连接起来，用于寻找预训练网络中不相关的滤波器。（2）与其他剪枝算法不同的是，该算法旨在为实际任务寻找合适的网络结构，剪枝滤波器对于数据集的微调任务是冗余的。（3）该算法在多个数据集和预训练网络上进行了验证。实验结果表明，该方法的有效性得到了验证，实验结果令人鼓舞。

本文的其余部分结构如下2介绍了网络剪枝方法的相关工作;必威2490本文提出的基于特征表示的剪枝算法将在章节中描述3.；节4，将该方法推广到多样本剪枝;部分5给出了实验结果，结论在章节中给出6．引言应该简明扼要，没有小标题。有限的数字可以包括只有当他们是真正的介绍性和不包含新的结果。

网络剪枝算法已经得到了广泛的关注，它是对cnn进行压缩和加速的最直接有效的方法之一。其中最引人注目的当属Han等人提出的“深度压缩”[192016年ICLR。通过消除轻量化参数、微调、权值共享和Huffman编码，该网络被压缩了十倍以上，可应用于嵌入式设备。“深度压缩”在网络压缩中表现出了强大的能力，但由于采用了权值共享方法，使得修剪后网络的传播速度有所下降。李等人。[20.]利用L1约束调节剪枝权重，并根据滤波器的绝对值对剪枝滤波器进行排序。通过对多种剪枝机制的比较，实验证明大值滤波器比小值滤波器发挥更关键的作用。他等人。21]提出了一种基于LASSO回归的信道选择和最小二乘重建的迭代两步修剪算法。Yu等人。[22]基于神经元重要性分数传播的剪枝网络。类似地，Molchanov等人[23]估计神经元对最终损失的贡献，并迭代删除分数较小的节点。安瓦尔等人。[24]为cnn引入了不同尺度的结构稀疏性，并使用粒子滤波方法解决了决策问题的重要性。为了更快地处理面部识别，稀疏ConvNet是由Sun等人建议的。25］．与上述方法相比，Srinivas和Babu [26]结合了相似的卷积来加速网络传播，并删除了权重为零的过滤器。丁等人也有同样的想法。27]提出了一种名为C-SGD的优化方法，该方法将多个滤波器训练为参数超空间中的一个点，然后去除相同的滤波器。Chen和Zhao提出了一种分层修剪方法。28]，它研究了在卷积层中学习到的特征，并在层级进行修剪。有趣的是，malya和Lazebnik使用迭代修剪将多个任务添加到单个网络[29］．IKP剪枝方案由Yang等提出。30.]用于细粒度级去除冗余权重，在硬件加速器中表现良好。为了修剪对象检测的深度模型，Ghosh等人。[31]分析了检测网络的剪枝方法，将基于聚类的剪枝技术用于特征提取器，必威2490互信息用于检测器。

大多数修剪方法首先测量卷积的权重，然后修剪轻量级滤波器，并对剩余的网络进行微调。李等人。[20.]比较了几种不同的修剪机制，并证明了大多数大权重滤波器在网络中更重要。然而，有些层是敏感的，其中修剪轻量级滤波器将影响整个网络的准确性。因此，一些轻量级的过滤器也是非常重要的，并且通过过滤器的重量来评估是不够精确的。

在大多数实际应用中，网络只需要完成一项工作，这比ImageNet上的对象分类要简单得多。使用预训练的网络可能会浪费大量的计算资源。因此，本文采用剪枝方法的目的是为简单任务找到合适的网络。考虑到源图像与卷积特征映射之间的相关性，提出了基于特征表示的cnn剪枝算法，该算法在样本和卷积之间建立了桥梁，并指导网络选择所需的滤波器。

该方法的主要优点如下:简单实用:在网络传播过程中，卷积层是最耗时的部分。因此，在卷积层中修剪滤波器是加速网络最有效的方法。不相关的卷积会增加系统的操作负担，有效的剪枝算法可以使网络在实际应用中更高效地工作。与其他压缩方法相比，网络剪枝方法简单易行。更容易微调:在相同的网络结构中从头开始训练，可以达到相同的性能[32]，但前提是有强大的训练设备和大规模的训练数据。然而，从头开始训练小型架构是很困难的[33训练条件有限。从有效初始参数进行微调，使微调处理收敛更快。更易于解释:人工神经网络是一项伟大的技术，它是一个黑箱，很难被解释。到目前为止，还没有任何研究者对cnn给出完整的解释。所提出的剪枝方法侧重于实际任务，并以样本和特征表示之间的相关性为指导。与其他修剪算法相比，该方法具有更好的解释性和更强的说服力。

3.基于特征表示的剪枝

在简单cnn的前向传播中，图像数据被输入网络并逐层处理。除最后一层外，每一层都接受前一层的输出，中间结果作为后一层的输入输出。作为卷积层的输出，特征表示意味着卷积滤波器对输入数据的响应。因此，特征表示将过滤器与输入数据联系起来，并且可以根据特征表示揭示过滤器与样本之间的相关性。高相关性滤波器在样本特征提取中起着重要的作用，它可以清晰地将目标与背景区分开。相反，在实际应用中，对低相关滤波器进行修剪不会影响网络性能。

因此，如何利用特征表示来指导滤波器的选择是本文的主要问题。每个卷积滤波器生成一个特征图，特征图表示滤波器对图像的响应。一般来说，特征图是灰度图像，特征图越亮，特征的响应越强。因此，过滤器的重要性可以简单地通过特征图的亮度来排序。然而，一些亮度较低的特征图也可能很重要，因为过滤器的权重较小。因此需要对特征图进行归一化处理，并利用前景和背景来评价卷积滤波器的响应强度。

训练分类网络只需要类别标签，而训练检测网络不仅需要类别标签，还需要物体的位置。在训练中，检测器会选择背景区域作为负样本，不需要刻意准备负样本。同样，本文提出的剪枝算法也需要目标定位，训练中的负样本也会在背景中选择。如果前景区域的响应强度比背景区域的响应强度强，则需要对滤波器进行剪枝。如果前景区域的响应强度比背景区域的响应强度强，则可以考虑使用滤波器提取目标的有效特征;相反，冗余滤波器很难对有背景的物体进行分类，应该通过剪枝方法消除冗余滤波器。假设预训练的网络为P，包括n卷积的层。同样，假设修剪样本为年代= (我，标签)，标签= (残雪，cy，，h)，其中(我，标签)是带有标签的样本图像，(残雪，cy)为目标定位中心点，和而且h表示对象包围框的宽度和高度。前向传播之后，是特征映射调频在每个卷积层中，根据特征表示找到不相关的滤波器。在剪枝滤波器之前，对边界框内前景的特征响应进行了分析r_t以及背景的特征响应r_b应先按公式计算(1) - (4)，图示见图1． (在哪里x”,y’)表示特征图中边界框的左上点调频；而且h’表示中包围框的宽度和高度调频分别;W”,H的宽度和高度调频；W而且H分别表示输入图像的宽度和高度;λ_l是扩散系数l-th卷积层，用于评价特征图中感受野的扩展，λ₀= 0。考虑到边缘特征的影响，特征图中的目标区域略大于原始标记位置。由于每经过一层卷积后，感受野都在扩大，因此前景特征的范围应该随着网络的深入而扩大。但考虑到当前网络的深度，经过多次放大后，前景特征范围将超过特征图的范围。因此，是否应该考虑扩大感受野?如果是，对网络修剪有影响吗?这些问题将在实验部分进行讨论。

(一)

(b)

由于背景中的某些对象具有与前景对象相似的特征，因此背景和前景的特征响应将是相似的。前景区域小时，只与之比较r_t而且r_b会导致错误修剪。因此，在计算之后r_t而且r_b时，需要计算相关系数R特征映射之间调频和输入图像中的对象由下式表示:

如果R> 0，特征映射与输入图像相关;相反，应该从网络中减去过滤器。和其他修剪方法一样，在修剪完前一层卷积层后，需要对后一层的通道数和相应的权值进行整流。

修剪后，需要对网络进行微调，以恢复最佳性能。每个步骤如图所示2．

4.多样本剪枝

如果使用上述剪枝方法进行网络迭代剪枝，在剪枝结构中输入的不同样本越多，修剪的滤波器就越多。但是，基于不同样本的迭代修剪会影响网络特征提取，容易受到低相关性样本的误导。如果要在多个样本中应用修剪方法，建议在本节中使用修剪图。

同一物体在相同视角的不同图像中具有相似的表征特征。例如，在人与车的分类中，人与个体之间存在一定的差异，但人的本质特征将人与车区分开来。因为人有腿和手臂，而车辆没有，所以腿和手臂是人的基本特征，直接将人和车辆分为两类。转换到修剪机制，虽然个体之间存在一些差异，但同一类别中的所有对象都具有相同的特征，这些特征是该类别的基本特征。相反，在不同种类的物体中，不同的特征是区分不同物体的要点，这是需要保留的。因此，在多个样本剪枝任务中，提供剪枝图来计算每个滤波器的剪枝次数。与基于滤波器权重的剪枝方法类似，这部分的剪枝策略也取决于剪枝图获得的剪枝优先级。剪枝次数决定了特征图与输入图像中对象之间的相关性，不相关的过滤器更频繁地被剪枝。假设修剪数据集是D= {(我_k，标签_k) |k= 1,2,3，…，n_d}，其中(我_k，标签_k)是k-th图像与标签在数据集和n_d是数据集中的样本数。初始化修剪图C_o= {(l_我，f_ij，c_ij) |我= 1,2,3，…，n，j= 1,2,3，…，米_我}，其中(l_我，f_ij，c_ij)表示jth过滤器f_ij在我th层l_我已经被修剪了c_ij时间和c_ij= 0;米_我中的筛选器编号我th层。

相关性计算与单样本剪枝方法相同，都需要计算前景响应r_t在边界框和背景响应中r_b首先跳出边界框，然后得到相关值R过滤器的f_ij根据公式(5)．如果R< 0时，将1加到c_ij．计算完所有样本后，剪枝图中的所有滤波器按降序排序c_ij，和排序修剪图C_r= {(l_我，f_ij，c_ij，o_ij)，我= 1,2,3，…，n，j= 1,2,3，…，米_我}，其中o_ij表示基于的排序结果c_ij．最后，对满足方程(6)，并对修剪后的网络进行微调。

β表示修剪比例，由用户选择，将在实验中验证。

通过上述剪枝算法，根据剪枝图去除网络中的冗余滤波器。在所提出的剪枝机制中，剪枝数等于0的过滤器将不被剪枝，相关性低的过滤器将优先被剪枝。在下一节中，详细阐述了足够的实验来衡量所提出的方法的性能。

5.结果与讨论

三个CNN结构，即Cifar10-full [34]， vgg16 [35]， YOLOV3 [36，在实验中被修剪了。上述cnn全连接层参数较少，训练资源有限，易于应用。数据集Cifar10 [37]， ImageNet [38]、Pascal VOC [39]，并在Intel Core i7-8700k和NVidia 1080 8G GPU的计算机上进行实验。Cifar10-full在Caffe上实现[34]在Windows10上，VGG16在Caffe和Pytorch上都实现了，darknet [36]在Windows10上用于YOLOV3。数字3.为单样本修剪样本，多样本修剪样本如图所示4．所有的前景对象都是车辆，所有样本的背景都是街道。在实验中，Map-EX表示基于特征表示的考虑感受野扩展的剪枝模型，这是本文提出的。Size-EX和scratch-EX是与Map-EX结构相同的网络，但初始微调参数不同。size - ex根据滤波器的权重大小选择滤波器，scratch- ex从零开始训练。Map-NEX, Size-NEX和scratch-NEX是在网络修剪中不考虑接受野扩展的模型，这意味着λ_l在公式中(4)总是0。size - ex和size - nex模型通过计算每个层的绝对权重和大小排序的总和来衡量过滤器的相对重要性，由Li等人提出。[20.]，在论文的其余部分将称为权重大小修剪。scratch- ex和scratch- nex是从零开始训练的网络，它们使用了Liu等人提出的想法。[32］．为了便于理解，所提出的方法在下面的部分中称为特征映射修剪。实验细节见表1．


不。	原始网络	Pretraining	精炼	Superparameter	修剪方法

1	Cifar10_full	Cifar10	Cifar10	160 epoch 0.001lr	Map-EX, Size-EX, scratch-EX, Map-NEX, Size-NEX和scratch-NEX
			修改Cifar10
			修改了不同数据号的Cifar10
			Cifar10	160 epoch 0.001lr	不同比例的多样剪枝

2	VGG16	Cifar10	Cifar10	160 epoch 0.001lr	Map-NEX，多样本剪枝(0.8)，网络瘦身
			ImageNet subdataset

3.	YoloV3	ImageNet	挥发性有机化合物	80 epoch 0.001lr;80 epoch 0.001lr	Map-NEX;Size-NEX

5.1.Cifar10-满用Cifar10

Cifar10-full是为Cifar10分类任务设计的轻量级网络，由3个卷积层、3个池化层、2个本地响应归一层和一个全连接层组成。该网络由于输入量小，网络结构轻量化，训练起来比其他复杂庞大的网络容易得多。这样的小网络可以更清楚地反映修剪方法的影响，不需要考虑过拟合问题。Cifar10是一个小型图像数据集，其中图像大小为32 × 32，分类号为10。每个类别有60000张图像，50000张用于训练，10000张用于测试。这些类别包括飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。为了获得网络的基线精度，Cifar10-full从头开始训练。

Cifar10-full的训练方法类似于[20.]，它为Cifar10训练160个epoch，固定学习率0.001。为了保证实验中足够的训练，还采用了恒定的学习率和微调时间。为了验证所提方法的有效性，实验设计如下:

5.1.1.接受野扩展的单样本剪枝

感受野会随着传播的深入而扩大。在网络剪枝中，是否需要考虑接受野的扩展，回答如下。因此，实验显示了感受野扩张的影响如下。

如图所示5，考虑接受野扩展的模型具有相同的网络结构和不同的初始权值，压缩了30%的网络规模。不考虑感受野扩展的模型压缩效果较好，压缩约63%，1.3%的精度衰减是可以忍受的。无论是否考虑感受野扩展，基于本文方法的模型收敛性都优于其他方法。虽然基于权重大小剪枝的模型初始精度较高，但基于特征映射剪枝的模型具有一定的潜力。从头开始训练的模型很难得到与其他修剪方法相同的结果。

5.1.2.减少分类任务的单样本剪枝

在实际应用中只需要部分类，任务比ImageNet分类的挑战容易得多。因此，对修剪后的模型进行了约简分类实验，模拟了实际情况，验证了所提方法的有效性。原模型在Cifar10中训练了160个epoch，学习率为0.001，但微调依赖于修改后的Cifar10，其中包含两个类别:汽车和其他。汽车训练部分从Cifar10中选取5000个样本，其他训练部分均质选取Cifar10中除汽车外的7000个样本。微调机制与原始模型训练相同。

如图所示6，基于特征映射剪枝的模型仍能获得最佳的性能，不仅收敛速度快，而且经过微调后也能获得最佳的性能。由于分类减少，所有模型都达到了比原Cifar10微调更高的精度。在这个训练过程中，基于特征图剪枝而不考虑接受域扩展的模型获得了最好的性能，并且在微调之初，出乎意料的是，基于特征图剪枝的模型要优于基于权重大小剪枝的模型。

5.1.3.有限训练样本的单样本剪枝

有限的训练数据是需要预训练模型的主要原因，训练数据也是影响模型性能的主要因素之一。为了进一步证实所提出的想法，本文提供了一个训练样本有限的实验。在实验中，修剪良好的网络受微调样本减少的影响较小。网络的初始化参数更好，相应的剪枝算法也更合适。为了评估有限的训练样本的影响，Cifar10将不断修改。在这部分实验中，四个不同的数据集从修改的cifar10修剪。如图所示7，当递减比为1时，表示微调数据集与第2次实验中修改后的- cifar10相同，只有两个类别。递减的比值0.5、0.25和0.125代表从修改后的cifar10中选择的数据集中的样本，数据集的样本数分别为修改后的cifar10的一半、四分之一和八分之一。

图中曲线趋势7结果表明，训练数据越少，模型性能越差。基于该方法建立的模型在实验中仍然是最好的。在训练数据充足的情况下，不考虑感受野展开的特征图剪接模型表现良好，但在八分之一的训练数据下，准确率下降了很多。如果考虑接受域扩展，在较少的训练数据下，模型的性能更加稳定。

5.1.4.不同剪枝比例的多样本剪枝

在实际应用中，需要在网络性能和效率之间进行权衡，并回答如何选择合适的剪枝比例β，设计了不同修剪比例的多样本修剪实验。在多样本剪枝中，选取5000个车辆样本作为剪枝样本，严格用包围框进行标记，与Cifar10中的图像相似，如图所示4．

本部分选取修剪比例为0.5、0.6、0.7、0.8、0.9。从字面上看，0.5的修剪比意味着卷积层中一半的滤波器被移除，网络大小将被压缩到全卷积网络中原始网络的四分之一左右。必威2490由于其他层的参数，剪枝后的网络大小大于原始网络的四分之一，每个剪枝后的网络大小和精度如表所示2．


修剪比率	0．5	0.6	0.7	0.8	0.9

EX大小(KB)	171	143	117	92	69
EX的准确度	90.8%	90.9%	90.9%	88.9%	88.7%
NEX大小(KB)	101	71	49	33	19
NEX的准确性	86.3%	90.0%	89.8%	90.7%	89.1%

在表2， EX的大小和EX的精度是指考虑感受野扩展的模型的大小和精度;反之，NEX的大小和精度是指不考虑感受野扩展的模型的大小和精度。EX的精度和NEX的精度与EX的尺寸和NEX的尺寸差不多，不再介绍。表格2在不考虑感受野扩展的情况下，给出了基于所提方法的模型。剪枝比为0.8的模型在剪枝大小和网络精度之间取得了最佳的平衡。因此，感受野的扩张是多余的。小型模型不仅占用较少的计算资源，而且更容易进行微调。

不同剪枝比例下多样本剪枝的微调图如图所示8．具有相同修剪比的每个网络具有统一的网络结构，但初始权值不同。有限训练数据的微调过程如图所示9，随着训练数据的减少，收敛曲线变得越来越曲折。基于特征图剪枝的模型比其他方法更稳定。从零开始训练的模型的性能随着剪枝率的增加而下降。基于剪枝的模型更稳定，基于特征图剪枝的模型仍优于基于权重大小剪枝的模型。虽然基于权重大小的剪枝模型在0.9的剪枝比中显示出潜力，但基于方法的模型以微弱优势赢得了竞争。

(一)

(b)

(c)

(d)

5.2.Cifar10和ImageNet Subdataset上的VGG16

为了进一步证明所提方法的性能，并验证该方法的实际应用，在Cifar10和ImageNet子数据集上构建了VGG16的实验。由于在实际操作中，微调数据集与预训练数据集不同，因此在实验中，预训练数据集为Cifar10，微调数据集为Cifar10和ImageNet的子数据集。VGG16是VGG网络序列中的一个小网络，包含13个卷积层和3个全连接层。由于它具有良好的泛化性能，常被作为检测网络的骨干。因此，它在网络剪枝领域很受欢迎。ImageNet是一个包含1000个类别的大型可视化数据集，每个类别包括1300个用于训练的样本和50个用于测试的样本。它是最著名的数据集之一，已广泛应用于人工智能领域。为了得到实验的基线精度，我们从零开始训练VGG16，得到预训练的网络。继Li等人的工作之后。[20.]， VGG16用本文方法和[中的方法进行剪枝。20.]，结果如Table所示3.．同时，网络中的多样本剪枝(0.4)采用本文提出的方法进行多样本剪枝，剪枝比为0.4，即网络中40%的滤波器被剪枝。


	网络规模(M)	修剪(%)	测试准确度(%)

李等人。[31］	21.1	64.0	90.51
单样修剪	16.4	72.0	90.89
多样本剪枝(0.4)	21.7	63.0	90.66
多样本剪枝(0.5)	15.1	74.2	89.98
多样本剪枝(0.6)	9.8	83.3	89.70

如表所示3.，该方法的性能与Li等人的近似。[20.]。由于在原网络上与其他网络的比较偏离了本文的主要观点，因此比较不能显示我们算法的进步。所提出的剪枝方法尝试在实际分类任务的复杂程度较预训练数据集简单的情况下，对冗余参数进行剪枝;特别是，微调数据集不同于训练数据集。实验结果表明，基于单样本特征图剪枝的模型剪枝效果最佳。

因此，利用ImageNet的子数据集来证明上述想法。为了进一步证明所提方法的有效性，网络瘦身算法[40]在VGG16上实现，VGG16在Cifar10上进行预训练，并在ImageNet的子数据集上进行微调。训练批大小为32个，网络在160个epoch中进行训练。在训练中保留最佳模型，用于网络性能评估。根据图中修剪样品的选择3.时，选择出租车和路牌作为ImageNet的子数据集，这意味着网络经过微调后应该能够区分出租车和路牌。结果列在表中4．每种方法的修剪比均为0.6。


	网络规模(M)	修剪(%)	测试准确度(%)

网络瘦身(0.6)	19.2	64.4	91.0
单样修剪	14.2	73.7	94.0
多样本剪枝(0.6)	25.2	53.3	91.0

网络瘦身无疑是一种很好的网络剪枝算法，特别是在Cifar10上的网络压缩中，经过剪枝和微调后，网络压缩的精度得到了提高。但在实际应用中，该方法比网络瘦化更准确，而特征图剪枝后的网络尺寸比网络瘦化后的网络尺寸更小。在网络瘦身中，网络不能进一步压缩，因为更大的剪枝比会消除某些层的所有滤波器。

5.3.VOC上的YoloV3

所提出的剪枝方法不仅适用于分类网络，而且适用于残差结构的检测方法。实验中对知名网络YOLOV3进行了剪枝。YOLOV3是一种更深入的目标检测网络，因其实时效率和优异的性能而受到学术界和工业界的欢迎。由于YOLOV3的残馀主干，可以证明所提出的修剪方法也可以用于残馀网络修剪。Pascal VOC数据集是一个20类的可视化数据集，在VOC2007中有9963张图像包含24640个注释对象，在VOC2012中有11530张图像包含27450个ROI注释对象和6929个分割。实验中使用了VOC2007和VOC2012的数据来评估目标检测的性能。众所周知，YOLO系列网络难以训练和调整超参数;因此YOLOV3上的实验是基于ImageNet上预训练的模型。微调过程由两个步骤组成，每一步需要80个epoch，且学习率恒定。在训练的第一步中，选择0.001作为学习率，在第二步中下降到原来水平的十分之一。 The evaluation is based on the mAP (mean Average Precision).

结果如图所示10，其中map pruning表示基于特征图剪枝方式的模型，size pruning表示基于权重大小剪枝机制的模型，基于Li等人提出的算法。[20.］．虽然这两个网络具有相同的规模和结构，但由于剪枝方法选择了不同的滤波器，因此微调的初始参数完全不同。在实验中，结果证明了不同的初始参数是重要的，基于特征映射的剪枝比使用滤波器权值更好。

6.结论

针对神经网络的冗余参数和难训练问题，提出了一种基于特征表示的卷积神经网络剪枝算法。通过网络迭代计算每一层卷积的特征图。根据带有包围框标签的特征图，得到前景和背景特征的响应强度。然后通过特征表示将滤波器与目标之间的相关性桥接起来，这是剪枝算法的基础。进一步，将剪枝策略从单个剪枝样本扩展到多个剪枝图像。通过提取物体的基本特征，建议用剪枝图来指导剪枝方向。在最终剪枝图的基础上进行剪枝操作，加快了网络运行速度，便于调优。

本文提出的剪枝算法也通过一些有趣的实验在知名数据集上得到了验证。实验结果表明，在计算资源或训练数据有限的情况下，该算法优于基于滤波器权重的剪枝方法和从头训练。为了模拟实际情况，在实验中还与另一种著名的剪枝算法进行了比较。结果表明，当微调数据集与预训练数据集不同时，我们的剪枝方法更适合剪枝冗余滤波器。最优的网络结构是什么?如何找到它?如何用小样本训练网络?这些都是我们正在进行的工作的一部分。

数据可用性

本研究中包括的所有数据均可通过联系通讯作者获得。

利益冲突

作者声明，他们在这项工作中没有利益冲突。

致谢

本课题由国家重点研发项目资助，资助项目编号:no.;2020AAA0104001，浙江实验室(批准号:2020AAA0104001)浙江省自然科学基金项目(No. 2019KD0AD011005);浙江省科技计划重点项目LY19F020027;2021 c03129。

参考文献

M. Denil, B. Shakibi, L. Dinh和N. De Freitas，“深度学习中的预测参数”，在神经信息处理系统进展，第2148-2156页，太浩湖，NV，美国，2013年12月。视图:谷歌学者
R. Girshick, J. Donahue, T. Darrell和J. Malik，“用于精确对象检测和语义分割的丰富特征层次结构”，在IEEE计算机视觉与模式识别会议论文集，第580-587页，哥伦布，OH，美国，2014年6月。视图:谷歌学者
R. Girshick， " Fast r-cnn "，有请IEEE计算机视觉国际会议论文集，第1440-1448页，智利圣地亚哥，2015年12月。视图:谷歌学者
S. Ren, K. He, R. Girshick和J. Sun，“更快的r-cnn:面向区域提议网络的实时目标检测”，在神经信息处理系统进展，第91-99页，土耳其伊斯坦布尔，2015年11月。视图:谷歌学者
A. G. Howard, M. Zhu, B. Chen等人，“用于移动视觉应用的高效卷积神经网络”，2017，http://arxiv.org/abs/1704.04861．视图:谷歌学者
M.桑德勒，A.霍华德，M.朱，A.日莫吉诺夫和l . c .。陈，“Mobilenetv2:倒残差和线性瓶颈”，在IEEE计算机视觉与模式识别会议论文集，页4510-4520，盐湖城，UT，美国，2018年6月。视图:谷歌学者
张涛，齐国杰，肖波，王杰，“交错群卷积”，在IEEE计算机视觉国际会议论文集2017年10月，意大利威尼斯。视图:谷歌学者
谢国刚，王建军，张涛，赖建军，洪荣，王建军。Qi，“交错结构稀疏卷积神经网络”，见IEEE计算机视觉与模式识别会议论文集，页8847-8856，盐湖城，UT，美国，2018年6月。视图:谷歌学者
K. Sun, M. Li, D. Liu，和J. Wang，“Igcv3:用于高效深度神经网络的交错低秩群卷积，”2018，http://arxiv.org/abs/1806.00178．视图:谷歌学者
Y. Choi, M. El-Khamy和J. Lee，“走向网络量化的极限”，在学习表征国际会议论文集2017年4月，法国土伦。视图:谷歌学者
H. Zhou, J. M. Alvarez和F. Porikli，“少即是多:迈向紧凑cnn”，见欧洲计算机视觉会议， pp. 662-677，施普林格，柏林，德国，2016。视图:谷歌学者
彭波，谭文文，李志，张生，谢东，濮s，“基于滤波群近似的极端网络压缩”，在欧洲计算机视觉会议论文集，页300-316，慕尼黑，德国，2018年9月。视图:谷歌学者
M. courbarariaux, Y. Bengio, j . p。David，“Binaryconnect:在传播过程中用二进制权重训练深度神经网络”，见神经信息处理系统进展，第3123-3131页，土耳其伊斯坦布尔，2015年11月。视图:谷歌学者
M. Rastegari, V. Ordonez, J. Redmon和A. Farhadi，“xnornet:使用二进制卷积神经网络的imagenet分类”，在计算机视觉欧洲会议论文集，第525-542页，施普林格，阿姆斯特丹，荷兰，2016年10月。视图:谷歌学者
G. Hinton, O. Vinyals和J. Dean，“在神经网络中提炼知识”，见神经信息处理系统进展2015年11月，土耳其伊斯坦布尔。视图:谷歌学者
J. Yim, D. Joo, J. Bae和J. Kim，“知识蒸馏的礼物:快速优化，网络最小化和迁移学习”，在IEEE计算机视觉与模式识别会议论文集，页4133-4141，檀香山，HI，美国，2017年7月。视图:谷歌学者
S. Zagoruyko和N. Komodakis，“更多地关注注意力:通过注意力转移提高卷积神经网络的性能”，在学习表征国际会议论文集2017年4月，法国土伦。视图:谷歌学者
B. Heo, M. Lee, S. Yun，和Y. C. Jin，“用支持对抗样本改进知识蒸馏”，在第三十三届AAAI人工智能会议论文集2019年2月，美国檀香山。视图:谷歌学者
学习表征国际会议论文集2016年5月，波多黎各圣胡安。视图:谷歌学者
H. Li, A. Kadav, I. Durdanovic, H. Samet，和H. P. Graf，“高效convnet的修剪滤波器”，在学习表征国际会议论文集2017年4月，法国土伦。视图:谷歌学者
Y. He, X. Zhang，和J. Sun，“用于加速深度神经网络的通道修剪”，在IEEE计算机视觉国际会议论文集，第1389-1397页，意大利威尼斯，2017年10月。视图:谷歌学者
于荣，李爱安，程飞。Chen等人，“Nisp:使用神经元重要性分数传播的修剪网络”，在IEEE计算机视觉与模式识别会议论文集，页9194-9203，盐湖城，UT，美国，2018年6月。视图:谷歌学者
P. Molchanov, A. Mallya, S. Tyree, I. Frosio和J. Kautz，“神经网络修剪的重要性估计”，在IEEE计算机视觉与模式识别会议论文集，第11264-11272页，美国加利福尼亚州长滩，2019年6月。视图:谷歌学者
S. Anwar, K. Hwang和W. Sung，“深度卷积神经网络的结构化修剪”，计算机学会计算系统新兴技术期刊，第13卷，no。3，页1-18,2017。视图:出版商的网站|谷歌学者
Y. Sun, X. Wang和X. Tang，“用于人脸识别的稀疏神经网络连接”，在IEEE计算机视觉与模式识别会议论文集，页4856-4864，美国拉斯维加斯，NV, 2016年6月。视图:谷歌学者
S. Srinivas和R. V. Babu，“深度神经网络的无数据参数修剪”，在英国机器视觉会议论文集2015年9月，英国斯旺西。视图:谷歌学者
X. Ding, G. Ding, Y. Guo，和J. Han，“向心sgd用于修剪具有复杂结构的非常深卷积网络”，在IEEE计算机视觉与模式识别会议论文集，页4943-4953，美国加利福尼亚州长滩，2019年6月。视图:谷歌学者
S. Chen和Q. Zhao，“深度网络浅化:基于特征表示的分层修剪”，IEEE模式分析与机器智能汇刊2019年第41卷。视图:出版商的网站|谷歌学者
a . Mallya和S. Lazebnik，“Packnet:通过迭代修剪将多个任务添加到单个网络”，在IEEE计算机视觉与模式识别会议论文集，第7765-7773页，盐湖城，UT，美国，2018年6月。视图:谷歌学者
M. Yang, M. Faraj, A. Hussein和V. Gaudet，“使用内核内规则修剪的卷积神经网络的高效硬件实现”，见2018 IEEE第48届多值逻辑国际研讨会论文集，第180-185页，IEEE，林茨，奥地利，2018年5月。视图:谷歌学者
S. Ghosh, S. K. K. Srinivasa, P. Amon, A. Hutter和A. Kaup，“用于对象检测的深度网络修剪”，见2019年IEEE图像处理国际会议论文集， pp. 3915-3919, IEEE，台北，台湾，2019年9月。视图:谷歌学者
刘震，孙敏，周涛，黄国和达雷尔，“重新思考网络修剪的价值”，在学习表征国际会议论文集2019年5月，美国洛杉矶新奥尔良。视图:谷歌学者
J. Frankle和M. Carbin，“彩票假说:寻找稀疏的、可训练的神经网络”，在学习表征国际会议论文集2019年5月，美国洛杉矶新奥尔良。视图:谷歌学者
Y. Jia, E. Shelhamer, J. Donahue等人，“快速特征嵌入的卷积架构”，在第22届ACM多媒体国际会议论文集，页675-678，山景城，加州，美国，2014年6月。视图:谷歌学者
K. Simonyan和A. Zisserman，“用于大规模图像识别的深度卷积网络”，2014年，http://arxiv.org/abs/1409.1556．视图:谷歌学者
J. Redmon和A. Farhadi，“Yolov3:增量改进”，2018年，http://arxiv.org/abs/1804.02767．视图:谷歌学者
A. Krizhevsky和G. Hinton，“从微小图像中学习多层特征”，系统自身免疫性疾病手册，第1卷，no。4、2009。视图:谷歌学者
邓J.，董W.， R. Socher等，“一个大规模的分层图像数据库”，在2009年IEEE计算机视觉与模式识别会议论文集，页248-255，迈阿密，佛罗里达州，美国，2009年6月。视图:谷歌学者
M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn和A. Zisserman，“pascal可视对象类(voc)挑战”，国际计算机视觉杂志，第88卷，no。2, pp. 303-338, 2010。视图:出版商的网站|谷歌学者
刘震，李俊杰，沈震，黄国光，严s.c Yan，和C. Zhang，“通过网络瘦身学习高效卷积网络”，在IEEE计算机视觉国际会议论文集，第2736-2744页，意大利威尼斯，2017年10月。视图:谷歌学者

计算智能与神经科学