滴滴&东北大学挑出自动组织化剪枝压缩算法框架,性能升迁高达120倍

阅读: 作者:admin   发表于 2020-03-03 11:06

  

原标题:滴滴&东北大学挑出自动组织化剪枝压缩算法框架,性能升迁高达120倍

作者 | 滴滴&东北大学

编辑 | 贾伟

2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录新闻:收到 8800 篇挑交论文,评审了 7737 篇,授与 1591 篇,授与率 20.6%。本文介绍了滴滴 AI Labs 与美国东北大学配相符的一篇论文《AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates》

论文全文:https://arxiv.org/abs/1907.03141

近年来,随着深度神经网络模型性能一连刷新,模型的主干网络参数目愈发重大,存储和计算代价一连挑高,从而导致难以安放在资源受限的嵌入式平台上。滴滴 AI Labs 与美国东北大学王言治教授钻研组配相符,说相符挑出了一栽基于 AutoML 思维的自动组织化剪枝的算法框架 AutoCompress,能自动化的往追求深度模型剪枝中的超参数,往除模型平分歧层的参数冗余,替代人造设计的过程并实现了超高的压缩倍率。从而已足嵌入式端上运走深度模型的实时性能需求。

相较之前手段的限制性,该手段挑出三点创新性设计:

(1)挑出同化型的组织化剪枝维度;

(2)采用高效兴旺的神经网络剪枝算法 ADMM(交替乘子优化算法)对训练过程中的正则项进走动态更新;

(3)行使了添强型引导启发式搜索的手段进走走为抽样。在 CIFAR 和 ImageNet 数据集的大量测试外明 AutoCompress 的效率隐晦超过各栽神经网络压缩手段与框架。在相通实在率下,实际参数目的压缩相对之前手段最大能够挑拙劣 120 倍。

自动化竖立深度模型剪枝中的超参数

深度神经网络模型压缩技术成为解决上述题目不走或缺的关键。其中具有代外性的手段 -- 模型权重剪枝(weight pruning)技术能够有效地将大模型压缩,进而高效地进走推理添速。

睁开全文

这其中,组织化剪枝(structured pruning)行为能够真实在平台层面解决硬件实走效率矮,内存访问效率差,计算平走度不高题目的相符理有效的剪枝维度,受到了学术界与工业界的偏重。然而权重剪枝在算法实现过程中涉及到到大量的超参数竖立 -- 例如如何确定模型的压缩维度,或者如何确定模型中每层的压缩比例等等。原由设计空间重大且必要专科知识请示,人造设计这些超参数的过程冗长且复杂,并且在很大水平上倚赖有关人员的参数调节经验。所以,行为一栽更添激进的剪枝模式,组织化剪枝技术在算法实现层面面临着更大的挑衅。

为解决组织化剪枝中超参数的决策题目,将超参数的竖立转折为一栽自动化过程将大大挑高模型权重剪枝的算法实现效率。在近期的钻研中,比如 AMC 等行使了深度添强学习(Deep Reinforcement Learning(DRL))的手段往决策每层的剪枝比例,然而,这栽自动化的剪枝手段存在三方面的限制性:

(1)只采用了单一的输出通道(filter)剪枝维度;

(2)为了得到稀奇化模型,其所采用的剪枝手段仅仅是在模型训练过程中引入一个静态的正则项;

(3)更深层次的限制性在于其所采用的基于 DRL 框架的剪枝手段内心上与剪枝题目难以兼容。但原由 DRL 框架并不正当解决模型权重剪枝的超参数竖立题目,AMC 钻研的终局也佐证了这一不益看点,其终局中最高压缩率只有非组织化(non-structured)的 5 倍压缩倍率。

图 1. 自动化超参数决策框架的通用流程,以及性能升迁来源

为了改进以上的不能,吾们挑出了神经网络权重剪枝题目超参数竖立自动化过程的通用流程(generic flow),如图 1 所示。整个自动化通用流程主要能够分为 4 步。步骤 1 为走为抽样,步骤 2 为迅速评估,步骤 3 为确定决策,步骤 4 为剪枝操作。

原由超参数的重大搜索空间,步骤 1 和步骤 2 答该迅速进走,所以无法进走再训练(re-training)后往评估其效率。所以按照量级最幼的一片面权重直接进走剪枝评估。步骤 3 按照做事抽样和评估的荟萃对超参数进走决策。步骤 4 行使剪枝核默算法对模型进走组织化剪枝并生成终局。

基于上述通用流程,并针对之前手段的限制性,进一步挑出如下三点创新性设计,经过综相符现有的深度神经网络与机器学习框架始次实现了现在最高效的深度神经网络自动化组织化剪枝的通用框架 AutoCompress。该框架在滴滴已经得到了实际有效行使。

基于神经网络自动化组织化剪枝框架

三点创新性设计为:(1)挑出同化型的组织化剪枝维度;(2)采用高效兴旺的神经网络剪枝算法 ADMM(交替乘子优化算法)对训练过程中的正则项进走动态更新;(3)行使了添强型引导启发式搜索的手段进走走为抽样。

图 2. 分歧的组织化剪枝策略: 基于卷积核的角度和通用矩阵乘算法(GEMM)的角度

最先,组织化剪枝包含三栽剪枝维度,输出通道剪枝(filter pruning),输入通道剪枝(channel pruning)和输出通道形状剪枝(filter shape/column pruning),如图 2 上所示。输出通道剪枝即直接删除一个卷积核。输入通道剪枝为删除每个卷积核对答的输入通道。输出通道形状剪枝为删除每个卷积核上相通位置的权重。下半片面展现了推理过程中卷积层睁开的通用矩阵乘法(GEMM)矩阵。其中每走代外一个卷积核(对答 filter pruning),每列对答的是每个卷积核上相通位置的权重(对答 filter shape pruning)。一段不息列则代外一个输入通道(对答 channel pruning)。经过结相符了输出通道形状剪枝(filter shape/column pruning)和 输入通道剪枝(filter pruning)两栽组织化剪枝维度,剪枝后的模型照样能够维持一个完善的矩阵,从而能够最大限度地行使硬件组织实现添速。

其次,采用 ADMM 算法,将剪枝题目转化为数学优化题目,图片中心在剪枝的同时训练盈余权重。ADMM 能够将原起剪枝题目分解为两个子题目,用传统梯度消极法求解子题目一,并引入一个二次项迭代求解子题目二。在分歧量级的神经网络下,ADMM 均取得专门益的训练效率(高精度),同时保持了较高的训练效率(迅速约束)。末了,采用有效的启发式搜索的手段解决 DRL 框架的限制性。考虑到基于人类经验的启发式搜索能够实走导向搜索(guided search),这是采用启发式搜索的另一个上风。

图 3. AutoCompress 框架暗示图

基于上述三点创新性设计,吾们搭建了 AutoCompress 框架,如图 3 所示。经过基于启发式搜索算法的自动化代理模块的请示,AutoCompress 框架进走模型自动化剪枝主要分为两个步骤,步骤 1:经过基于 ADMM 算法的组织化剪枝,得到权重分布组织性稀奇化的模型;步骤 2:经过网络组织净化(Purification)操作,将 ADMM 过程中无法十足删除的一幼片面冗余权重找到并删除。值得仔细的是,这两个步骤都是基于相通的启发式搜索机制。

启发式搜索机制

针对 AutoCompress 中最中央的搜索算法设计,吾们行使了搜索算法中的模拟退火算法为搜索算法的中央。举例来讲,给定一个原起模型,吾们会竖立两栽现在的函数 -- 按照权重数目竖立或按照运算量(FLOPs)竖立。搜索过程进走若干轮,比如第一轮现在的为压缩两倍权重数目,第二轮为压缩四倍权重数目。在每一轮搜索过程中,最先初起化一个走为(超参数),然后每次对走为进走一个扰动(超参数的幼幅变化)生成新的走为,按照模拟退火算法原理,评估两个走为,倘若新的走为评估终局优于原终局则批准该走为,倘若新的走为评估终局劣于原终局则以肯定概率批准该走为。每一轮算法中的温度参数 T 会消极,直到 T 消极到某个阈值后即停留搜索,该终局即为图 1 中的步骤 3 输出。末了,按照搜索得到的超参数,对神经网络进走组织化剪枝操作。

外 1. 在 VGG-16 上基于 CIFAR-10 数据集的权重剪枝对比终局。

外 2. 在 ResNet-18 (NISP 和 AMC 终局为 ResNet-50) 上基于 CIFAR-10 数据集的权重剪枝对比终局。

外 3. 在 VGG-16 上基于 ImageNet 数据集的组织化权重剪枝

外 4. 在 ResNet-18/50 上基于 ImageNet 数据集的组织化权重剪枝对比终局。

外 5. 在 ResNet-50 上基于 ImageNet 数据集的非组织化权重剪枝对比终局。

外 1,2,3,4,5 展现了 AutoCompress 框架在代外性的深度神经网络和数据集上的剪枝效率。

能够望到,AutoCompress 框架对深度模型压缩效率极为隐晦,例如 VGG-16 在 CIFAR-10 数据集上,组织化剪枝压缩率高达 52.2 倍,无精度亏损,在 Samsung Galaxy S10 智能手机上测试(操纵代码生成优化版编译器),其运走速度为 2.7ms。ResNet-18 在 CIFAR-10 数据集上更是达到了 54.2 倍组织化剪枝压缩率无精度亏损。

相比之前的手段,倘若考虑到 ResNet-18 与 ResNet-50 自己的大幼差距(吾们操纵更幼的 ResNet-18),能够在实在率有所上升的情况下比之前的手段减幼 120 倍权重参数。在 ImageNet 数据集上,VGG-16 达到了 6.4 倍组织化压缩率,精度亏损仅为 0.6%,ResNet-18 达到了 3.3 倍的组织化压缩率,无精度亏损;末了,值得指出的是,AutoCompress 框架也能够行使于非组织化剪枝,其压缩终局使 ResNet-50 在 ImageNet 数据集上能够做到 9.2 倍无精度亏损的压缩,更能达到 17.4 倍的压缩率,仅亏损 0.7% 的精度。

与其他手段相比,AutoCompress 的效率超过各栽神经网络压缩手段与框架。这一钻研使得高效率,高精度地获取深度神经网络高压缩率模型成为能够,并且得到的高效神经网络模型能够在嵌入式移动编制中实实际时推理运算。


Powered by 嵘驲物流(服务)有限公司 @2018 RSS地图 html地图

Copyright 站群 © 2013-2018 360 版权所有

导航

热点推荐

最新发布

友情链接