模型压缩95%，MIT韩松等人提出新型Lite Transformer

发布时间：2020-06-09 20:31:59 所属栏目：模式来源：站长网

导读：副标题#e# Transformer 的高性能依赖于极高的算力，这让移动端 NLP 严重受限。在不久之前的 ICLR 2020 论文中，MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer，向在边缘设备上部署移动级 NLP 应用迈进了一大步。虽然推出还不

模型架构是基于序列到序列学习的编码器 - 解码器。在机器翻译任务中，针对 WMT 数据集，基线模型基于 Vaswani 等人提出的模型。对于 IWSLT 数据集，基线模型遵循 Wu 等人的设置。对于文本摘要任务，研究者采用了与 WMT 相同的模型。至于语言建模任务，模型与 Baevski & Auli (2019) 一致，但模型尺寸较小。

该研究提出的架构首先将 transformer base 模型中的 bottleneck 拉平，然后用 LSRA 替换自注意力。更具体地说，是使用两个专门的模块，一个注意力分支和一个卷积分支。

实验结果

机器翻译

表 1 展示了 Lite Transformer 在 IWSLT’14 De-En 数据集上的定量结果，并与 transformer 基线方法和 LightConv 做了对比。在大约 100M Mult-Adds 时，Lite Transformer 模型的 BLEU 值比 transformer 高出 1.6。

模型压缩95%，MIT韩松等人提出新型Lite Transformer

表 1：IWSLT’14 De-En 上的结果。

表 2 中的定量结果表明，在 100M Mult-Adds 设置下，Lite Transformer 在 WMT En-De 数据集和 WMT En-Fr 数据集上的 BLEU 值分别比 Transformer 高出 1.2 和 1.7，在 300M Mult-Adds 设置下，也有 0.5 和 1.5 分的提升。

模型压缩95%，MIT韩松等人提出新型Lite Transformer

表 2：在 WMT’14 En-De 和 WMT’14 En-Fr 上的结果。

研究者还提供了模型在 WMT En-Fr 上的权衡曲线，如图 4a 所示，Lite Transformer 一直优于原版 transformer。

模型压缩95%，MIT韩松等人提出新型Lite Transformer

图 4：在 WMT En-Fr 数据集上的机器翻译权衡曲线，以及在 WIKITEXT-103 数据集上的语言建模权衡曲线。两个曲线都说明了在移动设置下，Lite Transformer 比 transformer 性能更佳（蓝色区域）。

与自动化设计模型的对比

与基于 AutoML 的 Evolved Transformer（ET）相比，Lite Transformer 在移动设置中也有明显的改进。此外，在 100M 和 300M 的 Mult-Adds 下，Lite Transformer 的 BLEU 值分别比 ET 高 0.5 和 0.2，详见表 3。

表 3：不同 NMT 模型的性能和训练成本。

文本摘要

模型压缩95%，MIT韩松等人提出新型Lite Transformer

表 4：在 CNN-DailyMail 数据集上的文本摘要结果。

模型压缩95%，MIT韩松等人提出新型Lite Transformer

表 5：在 WIKITEXT-103 数据集上的语言建模结果。

【编辑推荐】

真硬核! Build 2020: 自研超算挑战全球 Top5，最大语言模型将开源谷歌中国工程师提出颠覆性算法模型，Waymo实测可提高预测精准度推特CEO称随着人工智能兴起，程序员将“饭碗不保”Visual Studio 已整合 ML.NET 模型构建器首次曝光的计算模型！对标阿里？有没有想过你的中台只是废纸？【责任编辑：张燕妮 TEL：（010）68476606】
点赞 0

（编辑：泉州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页