300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > 模型压缩算法国内外研究现状综述

模型压缩算法国内外研究现状综述

时间:2018-12-28 23:24:00

相关推荐

模型压缩算法国内外研究现状综述

目录

1 DCNN模型量化算法相关研究综述

2 DCNN模型剪枝算法相关研究综述

3 DCNN模型知识蒸馏算法相关研究综述

4 DCNN模型其他压缩算法相关研究综述

目标检测模型在追求更高检测精度值的同时,也直接导致模型结构复杂化,参数量、计算量不断增加,鉴于此,目前已经诞生了多类压缩算法,对这些模型进行压缩处理,总结如图1.1中所示。

图1.1 深度神经网络模型压缩算法分类与算法特点

结合图1.1可以看到,目前在深度卷积神经网络领域,应用较为广泛的的压缩方法包括模型量化、模型剪枝以及基于知识蒸馏的深度模型压缩,此外还有一些方法包括神经网络架构搜索、低秩分解以及基于轻量结构设计轻量化模型等。下文中将按照图1.1中的顺序分别介绍这些压缩方法近年来的相关研究现状。

1 DCNN模型量化算法相关研究综述

量化,顾名思义,即将信号的连续取值(或大量的离散取值)近似为有限多个(或更少)离散值的过程,对应到深度卷积神经网络模型中,量化则表示将网络模型的激活值与权值从高精度的浮点数转化为低精度的浮点数或者低位宽的定点数,同时保证一定的精度。

早期将量化思想应用到卷积神经网络模型中的是MIT的Han等人[44],该量化方案中通过应用简单的聚类找量化中心点的方法,对网络模型中的权值进行量化。结合图1.2可以看到,上半部分中将左侧矩阵中32-bit的浮点数通过聚类,量化为0、1、2、3四个定点数,最终在该方案中再通过哈夫曼编码的方式完成对量化后权值的压缩存储。

图1.2 Deep Compression中通过聚类完成权值量化与微调示意图[44]

该方案作为卷积网络量化领域的开山之作,尽管可以减小权值的存储空间,但由于通过聚类找量化中心点的方式往往较难通过硬件加速,且该方案中仅量化了权值,输入特征图仍保留为浮点数形式,因此前向推理过程中仍是通过浮点数的乘累加完成计算。在此基础上,Zhou等人提出了一种渐进式量化的方案[45],通过将权值量化为2-1、2-2等数值,使得在硬件上部署时可通过简单的移位操作完成计算,主要创新即通过渐进式地对权值进行量化,来减小由量化造成的精度损失,但与[44]中一样,该方案中同样只进行了权值的量化,因此不满足本文所述的在边缘终端场景中的应用需求。

除了上述这类早期仅针对网络模型权值进行量化的研究外,还诞生了一类更激进的量化方案,即将模型中的激活值与权值全部量化为两个或三个数值的量化方法。最早提出该类型方案的是Bengio所在团队的BNN(Binarized Neural Networks),即二值神经网络[46][47],该量化方案中直接根据权值或激活值的正负,来选择量化为+1或-1,完成数据的二值化。受此量化方案的启发,近年来诞生了大量的优化后的二值神经网络,主要目的均是为了缓解由二值化导致的较大的精度损失问题[48]。

第一类二值神经网络的优化方案是通过最小化权值与激活值的量化误差来完成,早期的有Rastegari等人提出的BWN(Binary Weight Network)二值权重网络以及XNOR-Net[49],该方案中提出采用二值参数的缩放因子(Scaler)来更精确地近似原浮点数值,具体来说其提出的量化公式为w=αbw,其中α 即为二值化权值的缩放因子,然后通过最小化量化误差来学习得到最佳的缩放因子与对应的二值参数。该方案相较于BNN中直接采用符号函数来二值化的过程,所造成的精度损失更小。在此基础上,Li等人提出的HORQ方案[50]中将XNOR-Net中的单步逼近方式替换为基于量化残差的递归逼近,进一步地减小了量化带来的误差,如图1.9左上角中展示了HORQ量化方案的处理流程。

图1.3 多种二值神经网络训练方法示意图[50][54][56][57]

第二类二值神经网络的优化方案是优化神经网络的损失函数。之前的相关工作中往往聚焦于局部浮点数的精确近似,而忽略了参数二值化对模型全局的影响,鉴于此,Hou等人提出了感知损失的二值化方案[51],通过使用拟牛顿算法来最小化与二值化直接相关的总损失值,该方法也证明了这类设计与量化相关的损失函数项的方法是有效的。此外,Mishra等人同样借鉴了该思想,并总结了二值神经网络中在前向二值化与反向传播中存在的问题[52],例如梯度饱和、梯度不匹配等问题等,并在此基础上利用预训练的全精度大模型作为教师网络来指导低精度学生网络的训练。

第三类二值神经网络的优化方案是降低二值神经网络训练过程中反向传播时的梯度误差。可以看到,与普通的全精度神经网络类似,二值网络的训练同样依赖于反向传播过程中梯度的更新,但由于二值化操作中所用的符号函数不可导的属性,所以在反向传播过程中大多采用了直通式估计器[53]STE(Straight Though Estimator)来近似符号函数的梯度值(关于STE的原理与使用将在第二章中详细介绍),但这种梯度近似无疑是不准确的,存在显著的梯度不匹配问题,进而导致二值神经网络的训练效果更差,严重影响推理精度。鉴于此,Liu等人提出的Bi-Real Net中提出了一种自定义的ApproxSign函数来近似传统的符号函数进行反向传播中梯度值的计算[54];Darabi等人提出的BNN+(Binary Neural Networks +)中对符号函数的梯度进行近似[55],并采用一个正则化函数来激励二值周围的可学习权值。此后,Gong等人提出一种可微分的量化方案,称之为可微分软量化(DSQ),通过软量化替换传统的量化操作[56],进而较好的解决了STE中梯度不匹配的问题;Qin等人的IR-Net中通过考虑在量化网络训练过程中不同阶段的需求不一致[57],提出了一种自适应误差衰减估计器,较好地平衡了梯度误差的降低幅度与权值参数的更新能力。其中部分二值神经网络的优化处理流程如图1.3中所示。

尽管二值神经网络已经展现出众多的优点,例如硬件友好特性,包括可大幅减少内存占用,提高能效并大幅加速推理过程等;甚至与全精度的网络相比,部分精心设计的二值神经网络还展现出来更高的鲁棒性[48]。但目前二值神经网络在实际场景中的应用仍然较少,其主要原因就在于目前二值网络现有技术仍面临较为严重的精度损失问题,尤其是在大型数据集上训练面向更复杂任务的大型神经网络,例如本研究中主要关注的目标检测模型的量化,如果采用二值化的方式进行量化压缩,将严重影响目标检测模型的检测精度,因而无法满足我们在边缘终端场景中的应用需求。

鉴于此,本研究中提出的量化方法将主要聚焦于满足实际应用场景中的需求,即不再如上述的二值神经网络中一样追求极致的压缩比例,而是追求较低数据位宽的同时,又能够满足该应用场景下的检测精度需求,因此主要关注的是8-bit、4-bit及以下位宽(后文中该表述均不包含1-bit)的量化。

目前在该领域的量化工作,根据图1.7可以看到,根据是否需要对模型进行重新训练,分为了两类量化方案,即训练后量化PTQ(Post Training Quantization)与量化感知训练QAT(Quantization Aware Training)。更具体地,根据是否需要训练数据以及重新训练可以将量化方案分为四个不同的等级[58],总结如表1.1中所示。

表1.1 深度神经网络模型的4级量化

结合表1.1的内容,可以看到第一级与第二级的量化属于训练后量化,第三级与第四级则均属于量化感知训练。在训练后量化领域,Markus等人提出了一种无数据量化方案DFQ(Data Free Quantization)[58],即不需要校准数据集来微调量化参数,同时耦合以权值均衡与偏置纠正来提升网络量化的精度,最终完成对网络权值与激活值的8-bit无数据量化。Banner等人提出了一种4-bit的训练后量化方案ACIQ[60],通过求解最优的截断值来提升精度,此外也同样采用了偏置纠正的方法。Choukroun等人提出的训练后量化方案中采用了更细粒度的权值量化处理[61],即Kernel-wise卷积核级的量化,尽管可以获得更好的量化精度,但是在硬件上部署时由于更多量化参数的存在无疑将导致更频繁的数据访问,而这可能是得不偿失的。Cai等人也提出了一种无数据量化方案ZeroQ[62],但不同于前面的DFQ,该方案中通过生成蒸馏数据,然后利用生成的数据来实现量化,同时基于蒸馏数据,还提出了一种分析层敏感度的方法来实现混合精度量化。Fang等人指出之前的训练后量化在量化位宽极低的情况下精度损失较大,因此提出了一种分段线性量化方案PWLQ[63],通过寻找最优分段断点,仅需少量的校准数据,即可完成训练后量化,但是该方案的实现需要特殊的硬件支持。

Wu等人提出的EasyQuant[64]中通过精细搜索每层量化参数的缩放因子,来提升量化网络的精度,最终在部分网络上实现了接近8-bit量化精度的7-bit量化,其量化处理的流程如图1.4中所示。Nagel等人提出的AdaRound量化方案[65]中从一个新的视角对PTQ方法进行了优化,即通过理论推导证明了之前量化相关研究中采用的舍入策略并非最优的,即传统的四舍五入函数在量化中不是最优的,鉴于此,提出了一种用于训练后量化的舍入函数自适应方法。Li等人提出的BRECQ量化方案[66]中通过应用块重构等优化处理,在4-bit离线量化情况下,实现了接近同等位宽下量化感知训练得到的效果。

图1.4 EasyQuant量化处理流程图[64]

尽管近年来训练后量化已经在8-bit及以上位宽的量化中取得了不错的量化效果,但是在较为复杂的目标检测任务上,在4-bit及以下位宽的量化中仍然存在较大的精度损失,因此,目前在工业落地中应用较多的是表1.1中的第三级量化方案,即不修改网络结构的量化感知训练,希望通过模拟量化的重新训练,来尽可能减小由低位宽造成的精度损失。

目前,在量化感知训练领域,最为经典的工作是由Google公司的Jacob等人于提出的Integer-Only量化方案[67],在该方案中首次提出了一个较为完善的量化训练与推理框架,将32-bit浮点数量化为8-bit定点数,同时在分类任务与检测任务上均进行了实验来验证量化效果,后续大多的量化工作均采用了该方案中同样的思路;此外,在Tensorflow[68]以及Pytorch[69]等深度学习框架中也广泛采用了类似的量化方案。此后,Zhang等人提出的LQ-Nets[70]中提出了一种可兼容任意位宽的量化算法,但该量化为非均匀量化方案,一般需要特殊的硬件来支持其运算。Choi等人提出的量化算法PACT[71]中认为常用的激活函数ReLU会导致后一层输入的范围逐渐变大,进而导致激活值量化到低位宽时精度损失更大,因此提出了一种为激活值量化服务的激活函数替换原本的ReLU函数。随后,Li等人在前面量化工作[67]的基础上,提出了一种全量化方案FQN[72],主要是三个Tricks的整合来提升量化网络的精度,即BN层统计参数的冻结、选取一定比例的激活值以及细化权值的量化粒度为通道级,最终在目标检测任务上实现了较好的量化效果。

尽管这些量化算法相较于前面的PTQ类量化已经大幅减小了在低位宽上的精度损失,但是上述的几个量化方案都有一个共同点,即所有量化参数在训练过程中的更新都是通过统计输入的激活值与权值的变化来完成,并没有真正做到根据模型的损失值来更新量化参数,因此,这类量化方案还是次优的。鉴于此,Esser等人提出的方案LSQ[73],即解决了上述痛点,使得所有激活值与权值对应的量化参数都是真正可学习的参数,再次实现了量化模型精度的提升。随后,在该工作的基础上,Bhalgat等人提出的LSQ+[74]、Jain等人提出的量化方案[75]以及Zhao等人提出的LLSQ[76]均进一步实现了量化效果的提升,例如LSQ+中即在LSQ对称量化的基础上进一步实现了激活值的非对称量化。随后在,Choi等人再次提出一种用于非负激活值量化的方案Log-scale[77],是一种非均匀量化方法,Chen等人则是在[67]的基础上提出了一种专用于目标检测任务量化的方案AQD[78],尽管取得了较好的效果,但该方案中涉及到模型BN层结构的调整,不具备通用性。

为了进一步提升量化后模型的精度,一些研究中在量化的基础上叠加了一些别的优化方案,例如,Polino等人[79]以及Kim等人[80]所提的模型压缩方案中均在量化过程中耦合了知识蒸馏方法。此外,还有研究中通过混合量化来提升模型精度,即对模型的不同层之间,或者激活值与权值之间应用不同的数据位宽来量化,例如对不同层采用不同量化位宽的,就需要先量化出不同层之间的敏感度差别,以此来决定哪些敏感层使用高位宽,哪些不敏感层使用低位宽,这方面做的较好的有Dong等人[81][82]以及Yao等人的相关工作[83]。

最后,与本研究中息息相关的量化研究即在目标检测任务上进行量化的部分工作,除了前文所述的[72]、[77]以及[78]中在目标检测网络上开展实验外,Wei等人也通过耦合量化与知识蒸馏来训练得到一个极小的用于目标检测任务的卷积神经网络[84],此外,Chin等人[85]针对激活值偏移问题,提出了一种自适应量化方法,并在目标检测网络上开展了实验,但与前者一样,这两个方案中均仅对卷积层进行了量化处理。

2 DCNN模型剪枝算法相关研究综述

如前所述,神经网络模型的量化通过更换数据类型来改变运算方式与所需的存储,但并不会减少模型的参数量与计算量,因此还需要一种压缩方法能够直接减少DCNN的参数量与计算量。模型剪枝应运而生,最早是由Lecun等人在1989年提出的OBD方法[86]中指出模型中存在大量冗余的参数,可以通过筛选并去除这部分参数来减少参数与计算量,最终形成了最早的模型剪枝方法。模型剪枝,顾名思义,即将神经网络模型中的部分元素从模型中剪除掉,以此来达到压缩模型、减少计算量的目的。通过不同的角度,可以划分出多种剪枝类型,其中最常见的即从剪枝粒度进行划分,可分为非结构化剪枝与结构化剪枝,此外还有诸如训练时剪枝、训练后剪枝、渐进式剪枝、一次性剪枝以及从全局与局部剪枝角度划分的逐层剪枝与全局剪枝等;鉴于这些方法之间互有交叉,无法完全区分,因此本节中将仅从一种角度即剪枝粒度的角度,来详细阐述目前模型剪枝算法的相关研究现状。

首先是非结构化剪枝,观察图1.5,可以看到,其最左边的图案即属于非结构化剪枝,其剪枝对象为卷积核中每一个独立的权值,是剪枝方法中最细粒度的方案。

图1.5 从剪枝粒度角度划分的4种剪枝方案示意图

Lecun等人提出的OBD剪枝方法中通过构建损失函数的局部模型,进而利用二阶导数达到剪除部分参数而误差增加最小的目的,该方案中为了减少运算量,假设了权值参数之间没有相互作用,最终仅需计算Hessian矩阵中的对角项;随后,1992年Hassibi等人指出OBD中简化Hessian矩阵的方案在大多数情况下是无效的,并基于此提出了OBS剪枝方案[87],该方案中完整地利用了Hessian矩阵的所有信息来指导权值的修剪,实现了更好的剪枝效果,但由于需要计算完整的Hessian矩阵,无疑计算成本要高得多。例如若在VGG-16上应用OBS剪枝,需要计算大小为133 M×133 M的Hessian矩阵的逆,可见尽管OBD或者OBS已被证明在早期的浅层网络上能取得不错的剪枝效果,但是对目前的大规模深度卷积神经网络来说,利用二阶导数来指导剪枝的计算成本过高,较难得到广泛应用。

,Han等人的工作中提出了一种简单的剪枝策略[88],即剪除所有低于人为设置的阈值的权值,再通过微调来恢复精度,随后迭代进行剪枝与微调,直到达到所需要的压缩比例,其流程如图1.6中左图所示,采用该非结构化剪枝方案最终对神经元剪枝的效果如右图中所示。

图1.6 三步剪枝训练流程与剪枝前后突触、神经元示意图

,Guo等人提出一种动态剪枝方案[89],即认为之前的剪枝方法可能将某些重要权值误剪而导致精度不可恢复地下降,鉴于此,提出通过动态地恢复部分权值来降低精度下降;Hu等人提出一种数据驱动的剪枝方案APoZ[90],即通过观察在大数据集上训练时中间层神经元的变化,发现存在较多的弱神经元可以被修剪,然后再通过微调来恢复精度,与图1.6中左图所示流程类似,通过反复迭代来达到目的。Yang等人在[88]的基础上,提出一种根据实际硬件参数来指导模型剪枝的方案[91],即通过能耗评估模型来明确每一层的能耗情况,然后据此进行逐层剪枝。Dong等人则是在[87]的基础上,指出OBS方案中需要计算完整的Hessian矩阵信息,导致计算量过大难以接受,并据此提出一种逐层剪枝方案[92],每次仅需计算一层的Hessian矩阵,并通过控制逐层剪枝后的误差变化来指导剪枝。,Tartaglione等人提出一种基于权值灵敏度的正则化剪枝方法[93],通过在SGD(Stochastic Gradient Descent)计算公式中添加关于灵敏度的计算,使得不同灵敏度的权值趋近于0的变化速度不同,最终完成非结构化剪枝。Tung等人基于Han等人的工作[44],提出一种量化与剪枝并行的方案[94],同时借鉴了Guo等人[89]的思路,即在剪枝过程中添加了动态恢复机制,最终实现了浮点量化与剪枝,并加速了压缩流程。随后,在,Lee等人同样提出一种基于灵敏度的剪枝方案[95],不同于Tartaglione等人的剪枝方案中是在训练的过程中计算灵敏度,该方案中是在训练开始前即根据不同初始化完成灵敏度计算,之后仅需要对剪枝稀疏后的模型进行训练即可。Jaeho等人指出之前的工作中基于权值大小的剪枝已经取得了不错的效果,但往往需要依赖于广泛的超参搜索,鉴于此,提出一种基于权值大小的层自适应评分模型[96],该分数由权值的大小量级重缩放得到,并耦合了由剪枝引发的L2失真,最终在图像分类任务上取得了较好的压缩效果。,Frantar等人同样提出一种结合目标硬件平台实际情况进行剪枝的方法SPDY[97],通过耦合动态规划与局部搜索方法,自动明确在对应平台上逐层的稀疏目标,并保持精度与压缩率之间的平衡。

尽管近年来非结构化剪枝已取得了一定的发展,并在一些图像分类网络上实现了较好的剪枝效果,但最终得到的非结构化的稀疏模型无法得到现有库的支持,往往需要设计专门的硬件与软件来支持其有效的推理过程,而这在实际应用中是极为困难的;另一方面,非结构化带来的随机连接中还隐含了缓存与内存访问问题,如文章[98]中所提到的,由于缓存的局部性差,以及随机连接导致的内存访问跳跃问题,都使得获得的实际加速增益极为有限,甚至变得更慢。可见,非结构化剪枝无法满足前文中所述的压缩、加速的需求,鉴于此,后文中研究的剪枝方法将主要关注结构化剪枝。如图1.5中所示,其右边三组图像均属于结构化剪枝,但其中涉及到的剪枝粒度不同,从左到右,依次增大,分别为行(列)结构剪枝、Kernel剪枝以及卷积核(Filter)剪枝。卷积核剪枝后得到的模型在网络结构上并没有产生差异,可被当前现成的深度学习库完美支持,同时通过减少权值参数数量以及间接减少的激活值,使得内存占用大幅降低;此外卷积核剪枝后网络模型整体结构没有被破坏,因此还可在此基础上应用量化等处理来进一步压缩。鉴于其多种优势,我们选择开展卷积核剪枝的相关研究,本节后文将主要介绍卷积核剪枝的相关研究现状。

表1.2 近年来结构化剪枝方案中重要性评估指标简介

结构化剪枝过程中,往往需要根据所选定的重要性指标来对模型中的结构进行筛选或排序,然后将不重要的结构(Kernel、卷积核等)剪掉。不同剪枝算法之间主要的区别即在于定义的重要性指标不同,检索近年来的相关算法,可将此类基于重要性的剪枝归为两类,即参数驱动的剪枝与数据驱动的剪枝,涉及到的部分算法如表1.2中所示。

参数驱动的剪枝主要即利用网络模型自身参数或其衍生参数来评估所选择结构的重要性,然后根据排序情况与设置的剪枝比例等来剪除不重要的结构。文章[99][100][101][102]中均通过统计卷积核或Kernel的L1/L2范数,然后进行排序与剪枝,其中L1范数即通常所说的绝对值累加和,L2范数则为对应结构中各权值平方和的平方根;此类应用权值范数进行重要性评估的剪枝方法,往往还需要在排序前对权值进行稀疏化训练,使权值之间可根据梯度不同逐渐差异化。具体地,Li等人提出的方法中为每一层设置不同的剪枝率[99],同时为了剪枝带有Shortcut连接的残差块,该方法中先确定Shortcut中的待剪枝卷积核,再据此确定其关联层中的剪枝卷积核。He等人提出的剪枝方法中为了扩大模型容量[100],在确定卷积核需要剪掉后并非直接删掉,而是继续保留并更新,并将其称为软剪枝。Wang等人则在之前工作的基础上,在稀疏训练前即根据L1范数排序与剪枝比例确定剪枝卷积核[101],然后再对剪枝卷积核应用增长的L2正则化,但由于该方案中采用的逐层方式确定剪枝卷积核,无法从全局角度获得最优的剪枝效果。Zhang等人的方法与类似[102],同时采用L2正则化,不同之处在于该方法中主要关注对超分网络上残差块的剪枝处理。不同于之前这些剪枝方法中利用权值的范数来评估重要性,Liu等人提出采用BN层的权值即γ参数作为评估指标[103],同样的,在排序前需要对γ参数采用L1正则化。Zhao等人在Liu等人工作的基础上,优化了BN层[104],将BN层的偏置参数β乘上了γ参数,使得在稀疏的过程中,两者能够保持同步。Zhuang等人则是在[103]的基础上,采用了极化正则化器[105],即对剪枝卷积核与非剪枝卷积核应用不同的正则系数进行稀疏训练。以上三项工作中的剪枝过程均可参考图1.7中的流程。

图1.7 基于BN层γ参数剪枝示意图[103]

Huang等人则是在[103]、[107]等工作的基础上,将基于γ参数剪枝的方法一般化[106],通过构造一个对应着每个通道输出的缩放因子,该缩放因子发挥着类似γ参数的作用对输出进行缩放,当在训练中某通道对应的缩放因子趋近于0时,自然可以在剪枝时近乎无损的移除该通道对应的卷积核。除了上述常见的基于γ参数或范数的参数驱动剪枝外,还有Zhuo等人通过对卷积核进行谱聚类[108],然后剪枝;He等人指出之前的工作中利用范数进行剪枝[109],往往需要权值满足两个条件,即卷积核的范数偏差较大以及最小范数极小,而往往很难同时满足,同时指出范数极小的卷积核可能也发挥一定作用,并基于此,通过计算每层卷积核的几何中位数,来找出冗余的卷积核进行剪枝;Ding等人则是提出一种向心随机梯度下降C-SGD的方法[110],通过训练使每层卷积核趋近于多维空间中的一点,在训练完成后,根据相似程度减去冗余卷积核。

数据驱动的剪枝依赖于输入的不同训练数据,根据不同的输入数据而得到的特征图、梯度以及损失值等进行评估与剪枝。Luo等人将卷积核剪枝建构成一个优化问题[111],并指出更应该基于剪枝层后一层的计算得到的统计信息来进行剪枝。文章[112][113][114]中均关注激活值的重构,通过最小化重构误差,选择出剪枝卷积核,其中Aghasi等人提出的方法仅适用于激活函数为ReLU的情况[113]。Luo等人认为特征图的熵越大[115],其中所包含的信息就越多,进而可能发挥着更重要的作用,基于此,根据特征图的熵值来进行排序与剪枝。Li等人提出的结构化剪枝方案中将当前层的一个输出通道与下一层所有卷积核中对应通道组合成一个正则化组[116],在此基础上,评估重要性的指标也是来源于连续两层的统计信息。Molchanov等人提出的方案中包含了两种剪枝标准[117],分别为一阶泰勒展开与二阶泰勒展开近似。Lin等人首先通过实验证明[118],同一个卷积核产生的特征图的平均秩是相同的,且与卷积网络输入图片的批次大小无关,然后数学推导证明了高秩的特征图中包含了更多的信息,基于这些发现,根据特征图的秩进行逐层的重要性排序与剪枝。Kang等人指出在当前卷积网络中BN层与ReLU激活的组合应用较为广泛[119],而激活值经过ReLU函数处理后,往往会出现部分失活的情况,鉴于此,提出了一种基于ReLU激活函数输出的失活概率来进行排序的剪枝方案。Tan等人提出的剪枝方案与[119]类似[120],区别在于该方案中采用的是激活后激活值的平均值来排序,随后进行迭代剪枝。He等人指出之前基于范数的方法中没有考虑卷积核在不同层间分布的变化[121],并认为不适合对所有层均应用相同的剪枝标准,因此,提出了剪枝标准采样器,通过训练来学习选择最终的层剪枝方式。Luo等人提出了一种专注于有限数据情况下的结构化剪枝[122],并通过应用KL散度作为评估指标完成残差块的剪枝。

此外,除了上述专注于在简单的图像分类任务上进行剪枝的研究外,还有少量的工作在YOLO系列检测模型上开展了剪枝实验。Cai等人在[98]的基础上,提出了一种与编译器协同设计的结构化剪枝方法[123],并在YOLO v4模型上开展了实验;Xu等人在工作中先是指出在当前基于迁移学习得到的目标检测任务模型上开展以BN层γ参数为重要性评估指标的剪枝往往效果较差,因为这些目标检测模型的骨干网络部分的γ值往往比后续阶段的要大一些,基于此,Xu等人提出了一种注意力感知模块[124],并添加到网络模型中,通过比较该模块的输出来比较重要性,最终在YOLO v3模型上完成了结构化剪枝。

3 DCNN模型知识蒸馏算法相关研究综述

知识蒸馏作为一种神经网络模型压缩算法,与前文所述的剪枝与量化不同,不是直接在目标模型上进行压缩得到更小的模型,而是通过用一个更大的模型作为教师模型,来指导相对较小的学生模型的训练过程来获得更好的性能,最终使得该目标模型在原参数量、原结构的情况下获得更高的精度。

最早是由Hinton等人在提出该方法[125],创新性地提出了一个带有蒸馏温度T的Softmax函数来软化教师模型逻辑层的输出,使得学生模型的监督信息一部分来自教师模型的软标签,另一部分来自原训练数据的硬标签,调整软标签的权重系数来改变教师模型对学生模型的指导作用,最终在分类网络上实现了较好的蒸馏效果。Hinton等人提出的该蒸馏方法属于基于响应的蒸馏,随后在该工作的基础上,又陆续有研究人员提出了基于特征的以及基于关系的蒸馏方法,这三种蒸馏方法之间的关系如图1.8中所示。

图1.8 教师模型中三种蒸馏方法的知识来源示意图

首先是最常见的基于响应的蒸馏,其知识来自于教师模型最后一层的输出,由于该输出尚未经过Softmax函数处理,可进一步作为软标签来使用。Szegedy等人参考标签平滑可以提升模型泛化能力并避免过拟合的思想[126],利用教师模型提供的软标签来达到标签平滑的效果。Furlanello等人指出教师模型中目标类预测值等同于各样本的权重因子[127],用其进行损失加权,同样使学生模型性能小幅提升。Zhao等人进一步地将教师模型最后一层的输出信息分为目标类与非目标类[128],并证明了非目标类的信息在基于响应的蒸馏方法中发挥了关键作用。

对于深度卷积神经网络来说,其推理精度的高低往往与提取的特征质量高度相关,而基于特征的蒸馏即利用教师模型中间隐藏层提取的特征信息来进行蒸馏。一般来说,教师模型结构的宽度、深度都远大于学生模型,因此很难直接满足特征的匹配关系,为解决该问题,最直接的做法即在学生模型的相应层位置处添加一个连接器,常见的连接器有全连接层或者卷积层构成的模块等。连接器的形式与出现位置差异较大[129],例如Zagoruyko等人提出的连接器中将特征值转为注意力值[130],Heo等人的连接器中则通过二值化的形式来筛选原始特征[131]。

不同于基于特征的蒸馏中关注的是特征点之间的差异,基于关系的蒸馏中聚焦于特征层间或者样本间的关系。例如Yim等人提出的蒸馏方法中[132],构建了教师模型与学生模型特征层间的关系矩阵;Park等人认为样本间关系差异中包含的信息比单个样本所带来的信息往往更为重要[133],遂提出在每一批次的样本数据内计算教师模型与学生模型特征间的关系矩阵,通过提出的二阶距离损失与三阶角度损失来来代表两个样本间的关系差异信息与三个样本间的夹角差异信息。Tung等人则是提出一种基于特征间相似度的蒸馏方法[134],即让学生模型在相同样本下,产生与教师模型相似度更高的特征。

除了图像分类任务,知识蒸馏同样被应用在在目标检测任务上。最早是Chen等人于将该方法应用在目标检测模型的精度提升上[135],其提出的方法中提出了三个损失函数,并分别应用在检测网络的骨干网络部分、分类检测头部分以及回归检测头部分的蒸馏中。Wang等人首先指出在目标检测模型中特征包含了大量的背景信息[136],若直接利用所有特征进行蒸馏,往往效果较差,鉴于此,提出了仅利用真实信息附近的锚框信息蒸馏,即蒸馏前需要先进行细粒度的特征值筛选。Yang等人则指出大多数蒸馏方法在检测任务上应用效果较差的原因在于没有注意到教师模型与学生模型在特征的不同区域存在较大差异[137],如果直接蒸馏,则这种特征间的不均衡将导致效果较差,鉴于此,提出了局部与全局蒸馏,其中局部蒸馏专注于教师模型的关键像素与通道信息,全局蒸馏则专注于重建局部像素间的关系,弥补局部蒸馏的不足。

近年来同样有相关工作将知识蒸馏应用在YOLO系列检测模型上,Mehta等人利用知识蒸馏在轻量级的YOLO模型上获得了更高的检测精度与速度[138],提出了目标缩放蒸馏损失函数以及统一的用于检测网络的蒸馏损失函数。Wang等人指出之前的方法中[139],学生模型很难同时关注到目标区域与错误的检测区域,进而无法有效地学习教师模型,鉴于此,提出了一种全监督的蒸馏算法,并在基于不同骨干网络的Tiny-YOLO上开展了实验。Xing等人则是通过网络架构搜索、轻量化模块替换以及知识蒸馏三种方法的叠加[140],在YOLO v4模型的基础上,得到了更小的DD-YOLO模型。

4 DCNN模型其他压缩算法相关研究综述

自AlexNet诞生之后,如何设计在不同任务上更高精度的神经网络成为该领域研究人员关注的焦点,例如一些得到广泛应用的网络如VGG以及ResNet等均通过大量的试验最终确定其结构与超参等设置,开发成本极高,限制了CNN在不同任务上的快速应用。鉴于此,神经网络架构搜索(NAS, Neural Architecture Search)技术应运而生,其作为一种神经网络自动设计方法,可从给定的搜索空间中自动设计出高性能的网络,进而有效降低神经网络在不同任务上的高性能实现成本。NAS方法的三个核心要素即搜索空间、搜索方法以及性能评估方法。其中性能评估主要涉及到在不同数据集上的精度或速度等指标;搜索空间主要用来描述NAS方法可搜索的网络类型,分为两类,即全局搜索空间与基于单元的搜索空间,例如Baker等人[141]以及Xie等人[142]即采用了全局搜索空间,Zoph等人[143]则采用的是后者。搜索方法本质上即网络超参优化方法,目前常见的有强化学习、基于遗传算法以及基于梯度的方法等。例如,在[144]的工作中,即将NAS作为一个强化学习问题,学习得到一个用于产生更优网络结构的策略;Liu等人则指出基于强化学习的NAS方法往往存在计算量大而效率低的问题[145],其中主要原因在于结构搜索被约束为离散空间中的黑箱优化问题,进而无法使用梯度信息来求解,鉴于此,提出了一种可微结构搜索方法,将上述的离散优化问题连续化,最终实现了网络架构的高效搜索。

轻量网络结构设计即通过利用更轻量级的算子来完成网络模型的搭建,从源头上减小模型尺寸,使得可在此类轻量化网络的基础上应用前述的压缩方法来进一步压缩网络。近年来在该领域已诞生了多项经典工作,其中的轻量化网络不仅在图像分类任务上取得了较好的效果,同时还作为骨干网络被广泛应用在轻量化的目标检测、图像分割等任务模型中。例如Landola等人提出的SqueezeNet中提出了一种新的模块Fire模块[146],其由两层构成,即squeeze层与expand层,前者由1×1的卷积减少特征图数量,后者则由1×1与3×3卷积构成并完成拼接操作。Howard等人的MobileNet网络中采用了一种名为深度可分离的卷积层[147],替换了传统的卷积层,并耦合以逐点卷积(Point-wise Convolution)将特征图串起来,最终实现了参数量的大幅降低。Zhang等人提出的ShuffleNet中主要创新即提出了对特征图通道的Shuffle(打乱)操作[148],解决了组卷积网络中存在的特征信息流通不畅的问题。

参考文献:

文中参考文献序号减去43即与下列相应文献对应!

Han S, Mao H, Dally W J. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding[J]. arXiv preprint arXiv:1510.00149, . Zhou A, Yao A, Guo Y, et al. Incremental network quantization: Towards lossless cnns with low-precision weights[J]. arXiv preprint arXiv:1702.03044, . Hubara I, Courbariaux M, Soudry D, et al. Binarized neural networks[J]. Advances in neural information processing systems, , 29. Courbariaux M, Bengio Y, David J P. Binaryconnect: Training deep neural networks with binary weights during propagations[J]. Advances in neural information processing systems, , 28. Qin H, Gong R, Liu X, et al. Binary neural networks: A survey[J]. Pattern Recognition, , 105: 107281. Rastegari M, Ordonez V, Redmon J, et al. Xnor-net: Imagenet classification using binary convolutional neural networks[C]//European conference on computer vision. Springer, Cham, : 525-542. Li Z, Ni B, Zhang W, et al. Performance guaranteed network acceleration via high-order residual quantization[C]//Proceedings of the IEEE international conference on computer vision. : 2584-2592. Hou L, Yao Q, Kwok J T. Loss-aware binarization of deep networks[J]. arXiv preprint arXiv:1611.01600, . Mishra A, Marr D. Apprentice: Using knowledge distillation techniques to improve low-precision network accuracy[J]. arXiv preprint arXiv:1711.05852, . Bengio Y, Léonard N, Courville A. Estimating or propagating gradients through stochastic neurons for conditional computation[J]. arXiv preprint arXiv:1308.3432, . Liu Z, Wu B, Luo W, et al. Bi-real net: Enhancing the performance of 1-bit cnns with improved representational capability and advanced training algorithm[C]//Proceedings of the European conference on computer vision (ECCV). : 722-737. Darabi S, Belbahri M, Courbariaux M, et al. Regularized binary network training[J]. arXiv preprint arXiv:1812.11800, . Gong R, Liu X, Jiang S, et al. Differentiable soft quantization: Bridging full-precision and low-bit neural networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. : 4852-4861. Qin H, Gong R, Liu X, et al. Forward and backward information retention for accurate binary neural networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. : 2250-2259. Nagel M, Baalen M, Blankevoort T, et al. Data-free quantization through weight equalization and bias correction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. : 1325-1334. Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. pmlr, : 448-456. Banner R, Nahshan Y, Soudry D. Post training 4-bit quantization of convolutional networks for rapid-deployment[J]. Advances in Neural Information Processing Systems, , 32. Choukroun Y, Kravchik E, Yang F, et al. Low-bit quantization of neural networks for efficient inference[C]// IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). IEEE, : 3009-3018. Cai Y, Yao Z, Dong Z, et al. Zeroq: A novel zero shot quantization framework[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 13169-13178. Fang J, Shafiee A, Abdel-Aziz H, et al. Post-training piecewise linear quantization for deep neural networks[C]//European Conference on Computer Vision. Springer, Cham, : 69-86. Wu D, Tang Q, Zhao Y, et al. EasyQuant: Post-training quantization via scale optimization[J]. arXiv preprint arXiv:.16669, . Nagel M, Amjad R A, Van Baalen M, et al. Up or down? adaptive rounding for post-training quantization[C]//International Conference on Machine Learning. PMLR, : 7197-7206. Li Y, Gong R, Tan X, et al. Brecq: Pushing the limit of post-training quantization by block reconstruction[J]. arXiv preprint arXiv:2102.05426, . Jacob B, Kligys S, Chen B, et al. Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. : 2704-2713. Abadi M, Agarwal A, Barham P, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems[J]. arXiv preprint arXiv:1603.04467, . Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library[J]. Advances in neural information processing systems, , 32. Zhang D, Yang J, Ye D, et al. Lq-nets: Learned quantization for highly accurate and compact deep neural networks[C]//Proceedings of the European conference on computer vision (ECCV). : 365-382. Choi J, Wang Z, Venkataramani S, et al. Pact: Parameterized clipping activation for quantized neural networks[J]. arXiv preprint arXiv:1805.06085, . Li R, Wang Y, Liang F, et al. Fully quantized network for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 2810-2819. Esser S K, McKinstry J L, Bablani D, et al. Learned step size quantization[J]. arXiv preprint arXiv:1902.08153, . Bhalgat Y, Lee J, Nagel M, et al. Lsq+: Improving low-bit quantization through learnable offsets and better initialization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. : 696-697. Jain S, Gural A, Wu M, et al. Trained quantization thresholds for accurate and efficient fixed-point inference of deep neural networks[J]. Proceedings of Machine Learning and Systems, , 2: 112-128. Zhao X, Wang Y, Cai X, et al. Linear symmetric quantization of neural networks for low-precision integer hardware[J]. . Choi D, Kim H. Hardware-friendly Log-scale Quantization for CNNs with Activation Functions Containing Negative Values[C]// 18th International SoC Design Conference (ISOCC). IEEE, : 415-416. Chen P, Liu J, Zhuang B, et al. Aqd: Towards accurate quantized object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 104-113. Polino A, Pascanu R, Alistarh D. Model compression via distillation and quantization[J]. arXiv preprint arXiv:1802.05668, . Kim J, Bhalgat Y, Lee J, et al. Qkd: Quantization-aware knowledge distillation[J]. arXiv preprint arXiv:1911.12491, . Dong Z, Yao Z, Gholami A, et al. Hawq: Hessian aware quantization of neural networks with mixed-precision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. : 293-302. Dong Z, Yao Z, Arfeen D, et al. Hawq-v2: Hessian aware trace-weighted quantization of neural networks[J]. Advances in neural information processing systems, , 33: 18518-18529. Yao Z, Dong Z, Zheng Z, et al. Hawq-v3: Dyadic neural network quantization[C]//International Conference on Machine Learning. PMLR, : 11875-11886. Wei Y, Pan X, Qin H, et al. Quantization mimic: Towards very tiny cnn for object detection[C]//Proceedings of the European conference on computer vision (ECCV). : 267-283. Chin H H, Tsay R S, Wu H I. A high-performance adaptive quantization approach for edge cnn applications[J]. arXiv preprint arXiv:2107.08382, . LeCun Y, Denker J, Solla S. Optimal brain damage[J]. Advances in neural information processing systems, 1989, 2. Hassibi B, Stork D. Second order derivatives for network pruning: Optimal brain surgeon[J]. Advances in neural information processing systems, 1992, 5. Han S, Pool J, Tran J, et al. Learning both weights and connections for efficient neural network[J]. Advances in neural information processing systems, , 28. Guo Y, Yao A, Chen Y. Dynamic network surgery for efficient dnns[J]. Advances in neural information processing systems, , 29. Hu H, Peng R, Tai Y W, et al. Network trimming: A data-driven neuron pruning approach towards efficient deep architectures[J]. arXiv preprint arXiv:1607.03250, . Yang T J, Chen Y H, Sze V. Designing energy-efficient convolutional neural networks using energy-aware pruning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. : 5687-5695. Dong X, Chen S, Pan S. Learning to prune deep neural networks via layer-wise optimal brain surgeon[J]. Advances in Neural Information Processing Systems, , 30. Tartaglione E, Lepsøy S, Fiandrotti A, et al. Learning sparse neural networks via sensitivity-driven regularization[J]. Advances in neural information processing systems, , 31. Tung F, Mori G. Clip-q: Deep network compression learning by in-parallel pruning-quantization[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. : 7873-7882. Lee N, Ajanthan T, Torr P H S. Snip: Single-shot network pruning based on connection sensitivity[J]. arXiv preprint arXiv:1810.02340, . Lee J, Park S, Mo S, et al. Layer-adaptive sparsity for the magnitude-based pruning[J]. arXiv preprint arXiv:.07611, . Frantar E, Alistarh D. SPDY: Accurate pruning with speedup guarantees[C]//International Conference on Machine Learning. PMLR, : 6726-6743. Wen W, Wu C, Wang Y, et al. Learning structured sparsity in deep neural networks[J]. Advances in neural information processing systems, , 29. Li H, Kadav A, Durdanovic I, et al. Pruning filters for efficient convnets[J]. arXiv preprint arXiv:1608.08710, . He Y, Kang G, Dong X, et al. Soft filter pruning for accelerating deep convolutional neural networks[J]. arXiv preprint arXiv:1808.06866, . Wang H, Qin C, Zhang Y, et al. Neural pruning via growing regularization[J]. arXiv preprint arXiv:.09243, . Zhang Y, Wang H, Qin C, et al. Learning efficient image super-resolution networks via structure-regularized pruning[C]//International Conference on Learning Representations. . Liu Z, Li J, Shen Z, et al. Learning efficient convolutional networks through network slimming[C]//Proceedings of the IEEE international conference on computer vision. : 2736-2744. Zhao C, Ni B, Zhang J, et al. Variational convolutional neural network pruning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 2780-2789. Zhuang T, Zhang Z, Huang Y, et al. Neuron-level structured pruning using polarization regularizer[J]. Advances in neural information processing systems, , 33: 9865-9877. Huang Z, Wang N. Data-driven sparse structure selection for deep neural networks[C]//Proceedings of the European conference on computer vision (ECCV). : 304-320. Ye J, Lu X, Lin Z, et al. Rethinking the smaller-norm-less-informative assumption in channel pruning of convolution layers[J]. arXiv preprint arXiv:1802.00124, . Zhuo H, Qian X, Fu Y, et al. Scsp: Spectral clustering filter pruning with soft self-adaption manners[J]. arXiv preprint arXiv:1806.05320, . He Y, Liu P, Wang Z, et al. Filter pruning via geometric median for deep convolutional neural networks acceleration[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. : 4340-4349. Ding X, Ding G, Guo Y, et al. Centripetal sgd for pruning very deep convolutional networks with complicated structure[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. : 4943-4953. Luo J H, Wu J, Lin W. Thinet: A filter level pruning method for deep neural network compression[C]//Proceedings of the IEEE international conference on computer vision. : 5058-5066. He Y, Zhang X, Sun J. Channel pruning for accelerating very deep neural networks[C]//Proceedings of the IEEE international conference on computer vision. : 1389-1397. Aghasi A, Abdi A, Nguyen N, et al. Net-trim: Convex pruning of deep neural networks with performance guarantee[J]. Advances in neural information processing systems, , 30. Dubey A, Chatterjee M, Ahuja N. Coreset-based neural network compression[C]//Proceedings of the European Conference on Computer Vision (ECCV). : 454-470. Luo J H, Wu J. An entropy-based pruning method for cnn compression[J]. arXiv preprint arXiv:1706.05791, . Li J, Qi Q, Wang J, et al. OICSR: Out-in-channel sparsity regularization for compact deep neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 7046-7055. Molchanov P, Mallya A, Tyree S, et al. Importance estimation for neural network pruning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. : 11264-11272. Lin M, Ji R, Wang Y, et al. Hrank: Filter pruning using high-rank feature map[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. : 1529-1538. Kang M, Han B. Operation-aware soft channel pruning using differentiable masks[C]//International Conference on Machine Learning. PMLR, : 5122-5131. Tan C M J, Motani M. Dropnet: Reducing neural network complexity via iterative pruning[C]//International Conference on Machine Learning. PMLR, : 9356-9366. He Y, Ding Y, Liu P, et al. Learning filter pruning criteria for deep convolutional neural networks acceleration[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. : -. Luo J H, Wu J. Neural network pruning with residual-connections and limited-data[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 1458-1467. Cai Y, Li H, Yuan G, et al. Yolobile: Real-time object detection on mobile devices via compression-compilation co-design[C]//Proceedings of the AAAI Conference on Artificial Intelligence. , 35(2): 955-963. Xu Z, Li J, Meng Y, et al. Cap-yolo: Channel attention based pruning yolo for coal mine real-time intelligent monitoring[J]. Sensors, , 22(12): 4331. Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, . Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. : 2818-2826. Furlanello T, Lipton Z, Tschannen M, et al. Born again neural networks[C]//International Conference on Machine Learning. PMLR, : 1607-1616. Zhao B, Cui Q, Song R, et al. Decoupled knowledge distillation[C]//Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition. : 11953-11962. Heo B, Kim J, Yun S, et al. A comprehensive overhaul of feature distillation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. : 1921-1930. Zagoruyko S, Komodakis N. Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer[J]. arXiv preprint arXiv:1612.03928, . Heo B, Lee M, Yun S, et al. Knowledge transfer via distillation of activation boundaries formed by hidden neurons[C]//Proceedings of the AAAI Conference on Artificial Intelligence. , 33(01): 3779-3787. Yim J, Joo D, Bae J, et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. : 4133-4141. Park W, Kim D, Lu Y, et al. Relational knowledge distillation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 3967-3976. Tung F, Mori G. Similarity-preserving knowledge distillation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. : 1365-1374. Chen G, Choi W, Yu X, et al. Learning efficient object detection models with knowledge distillation[J]. Advances in neural information processing systems, , 30. Wang T, Yuan L, Zhang X, et al. Distilling object detectors with fine-grained feature imitation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 4933-4942. Yang Z, Li Z, Jiang X, et al. Focal and global knowledge distillation for detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. : 4643-4652. Mehta R, Ozturk C. Object detection at 200 frames per second[C]//Proceedings of the European Conference on Computer Vision (ECCV) Workshops. : 0-0. Wang D, Wen D, Liu J, et al. Fully supervised and guided distillation for one-stage detectors[C]//Proceedings of the Asian Conference on Computer Vision. . Xing Z, Chen X, Pang F. DD‐YOLO: An object detection method combining knowledge distillation and Differentiable Architecture Search[J]. IET Computer Vision, , 16(5): 418-430. Baker B, Gupta O, Naik N, et al. Designing neural network architectures using reinforcement learning[J]. arXiv preprint arXiv:1611.02167, . Xie L, Yuille A. Genetic cnn[C]//Proceedings of the IEEE international conference on computer vision. : 1379-1388. Zoph B, Vasudevan V, Shlens J, et al. Learning transferable architectures for scalable image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. : 8697-8710. Pham H, Guan M, Zoph B, et al. Efficient neural architecture search via parameters sharing[C]//International conference on machine learning. PMLR, : 4095-4104. Liu H, Simonyan K, Yang Y. Darts: Differentiable architecture search[J]. arXiv preprint arXiv:1806.09055, . Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size[J]. arXiv preprint arXiv:1602.07360, . Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, . Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. : 6848-6856.

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。