模型压缩如何迈向高效深度神经网络模型架构？

2 0 0

陈天龙表示，从理论出发进行探究是一个很好的选择。例如可以考虑-free的方法，利用估计子网络的最终表现，从而大大的提升模型搜素的效率，从这个方法也延伸出很多理论方向的工作，例如NTK-base（ on in Four GPU Hours: A ）的角度探究进一步的解决神经网络搜索的时间。

杨幻睿表示NAS现在很多是从超网到子网络的方法。有些方法训练超网的时间比较长，但是后训练时间比较短。可以考虑结合最新的理论工作，同时降低超网训练和子网络训练的时间，进一步加快模型搜索。

的机遇和挑战

1.目前针对的压缩有哪些常见方法？

2.与视觉领域CNN压缩相比的主要区别是什么？

李垠桥表示模型在自然语言处理的各项任务中大放异彩。凭借着模型在性能、可解释性、并行性等方面的优势，模型在自然语言处理任务之外的其他领域如CV也开始逐渐展露锋芒。而对于如何对这类模型进行压缩来说，从相对工程的角度出发，可以采用知识蒸馏，低精度运算等方法对模型进行压缩以及加速。虽然这类方法并不限于在模型中进行使用，但是在特定模型中这些方法的使用也需要研究人员进行一些尝试。例如，在模型结构中哪些位置可以使用低精度进行运算，而哪些位置为了保证模型性能而不能采用这类方法，甚至在不同位置需要保留多少的参数精度等等，这些都需要研究人员针对具体任务不断去调整。

另外对于模型压缩来说也可以针对模型本身的特定结构研究特定的压缩方法。之前也有研究人员从模型行为的角度出发针对进行压缩，在保证性能的前提下压缩模型大小。比如对于结构出发，ANN ( via an )提出了平均注意力的方法减轻模型在计算时的复杂度。另外李垠桥也从另一个角度提出了SAN ( for Fast )的方法，通过利用不同层之间注意力权重的相似性在不同层之间对权重进行复用，从而达到加速的目的。这些方法都是从特定的结构出发的，可以和上述的工程方法结合。

图2：基于权重共享的模型加速压缩方法

（来源： for Fast ，）

杨幻睿表示的压缩相较于CNN而言可能更加精细，CNN的结构相对简单，全部由相似的卷积层构成；而每个模块中存在作用不同的投影操作，也存在注意力机制等独特的模块。因此针对的压缩可能也需要更多的尝试和探索。其中典型包括early (BERT Loses : Fast and with Early Exit)和 (: A Lite BERT for Self- of )等方法，由于结构在每一层的尺寸完全一样，可以考虑提前若干层输出结果，或者中间几层保持相同权重，这些方法在NLP领域已经有一些研究，可能在视觉方面的模型上还有很大发展。另外，在BERT在和阶段应该存在不同的压缩方式，上述提及的ANN和SAN主要是针对下游特定任务进行的压缩,针对预训练阶段的压缩目前也很值得研究。

陈天龙从角度出发，研究BERT压缩中的存在性，即为BERT中是否有小模型，可以继承pre-好的迁移性。通过彩票假说，陈天龙证明了BERT压缩至只有~30%的参数，同样也有不受损的表达能力和迁移能力。