模型压缩 学界| 从剪枝法到低秩分解,手机端语言模型的神经网络压缩

默认分类3小时前发布 admin
1,993 0
星河超算AI数字人

论文链接:

摘要:在本论文中,我们考虑了多种压缩技术,对基于 RNN 的语言模型进行压缩。我们知道,传统的 RNN(例如基于 LSTM 的语言模型),要么具有很高的空间复杂度,要么需要大量的推理时间。对手机应用而言,这一问题非常关键,在手机中与远程服务器持续互动很不合适。通过使用 Penn (PTB)数据集,我们对比了 LSTM 模型在剪枝、量化、低秩分解、张量训练分解之后的模型大小与对快速推断的适应性。

3. 压缩方法统计

3.1 剪枝与量化

图 1:剪枝前后的权重分布

3.2 低秩分解

模型压缩 学界| 从剪枝法到低秩分解,手机端语言模型的神经网络压缩

3.3 TT 分解法(张量训练分解)

4. 结果

表 1:在 PTB 数据集上的剪枝和量化结果

表 2:在 PTB 数据集上的矩阵分解结果

5. 结论

模型压缩 学界| 从剪枝法到低秩分解,手机端语言模型的神经网络压缩

在此论文中,我们考虑语言模型神经网络压缩的多种方法。文章第一部分介绍剪枝与量化方法,结果显示这两种技术应用于语言模型压缩时毫无差别。文章第二部分介绍矩阵分解方法,我们演示了在设备上实现模型时,这些方法的优势。移动设备任务对模型大小与结构都有严格的限制。从这个角度来看,LR LSTM 650-650 模型有更好的特性。它比 PTB 数据集上的最小基准还要小,且其质量可与 PTB 上的中型模型媲美。

本文为机器之心编译, 转载请联系本公众号获得授权。

————————————————

加入机器之心(全职记者/实习生):

投稿或寻求报道:

广告&商务合作:

323AI导航网发布

© 版权声明

相关文章

星河超算AI数字人

暂无评论

暂无评论...