加入收藏 | 设为首页 | 会员中心 | 我要投稿 泉州站长网 (https://www.0595zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 模式 > 正文

模型压缩95%,MIT韩松等人提出新型Lite Transformer

发布时间:2020-06-09 20:31:59 所属栏目:模式 来源:站长网
导读:副标题#e# Transformer 的高性能依赖于极高的算力,这让移动端 NLP 严重受限。在不久之前的 ICLR 2020 论文中,MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer,向在边缘设备上部署移动级 NLP 应用迈进了一大步。 虽然推出还不

模型架构是基于序列到序列学习的编码器 - 解码器。在机器翻译任务中,针对 WMT 数据集,基线模型基于 Vaswani 等人提出的模型。对于 IWSLT 数据集,基线模型遵循 Wu 等人的设置。对于文本摘要任务,研究者采用了与 WMT 相同的模型。至于语言建模任务,模型与 Baevski & Auli (2019) 一致,但模型尺寸较小。

该研究提出的架构首先将 transformer base 模型中的 bottleneck 拉平,然后用 LSRA 替换自注意力。更具体地说,是使用两个专门的模块,一个注意力分支和一个卷积分支。

实验结果

机器翻译

表 1 展示了 Lite Transformer 在 IWSLT’14 De-En 数据集上的定量结果,并与 transformer 基线方法和 LightConv 做了对比。在大约 100M Mult-Adds 时,Lite Transformer 模型的 BLEU 值比 transformer 高出 1.6。

模型压缩95%,MIT韩松等人提出新型Lite Transformer

表 1:IWSLT’14 De-En 上的结果。

表 2 中的定量结果表明,在 100M Mult-Adds 设置下,Lite Transformer 在 WMT En-De 数据集和 WMT En-Fr 数据集上的 BLEU 值分别比 Transformer 高出 1.2 和 1.7,在 300M Mult-Adds 设置下,也有 0.5 和 1.5 分的提升。

模型压缩95%,MIT韩松等人提出新型Lite Transformer

表 2:在 WMT’14 En-De 和 WMT’14 En-Fr 上的结果。

研究者还提供了模型在 WMT En-Fr 上的权衡曲线,如图 4a 所示,Lite Transformer 一直优于原版 transformer。

模型压缩95%,MIT韩松等人提出新型Lite Transformer

图 4:在 WMT En-Fr 数据集上的机器翻译权衡曲线,以及在 WIKITEXT-103 数据集上的语言建模权衡曲线。两个曲线都说明了在移动设置下,Lite Transformer 比 transformer 性能更佳(蓝色区域)。

与自动化设计模型的对比

与基于 AutoML 的 Evolved Transformer(ET)相比,Lite Transformer 在移动设置中也有明显的改进。此外,在 100M 和 300M 的 Mult-Adds 下,Lite Transformer 的 BLEU 值分别比 ET 高 0.5 和 0.2,详见表 3。

表 3:不同 NMT 模型的性能和训练成本。

文本摘要

模型压缩95%,MIT韩松等人提出新型Lite Transformer

表 4:在 CNN-DailyMail 数据集上的文本摘要结果。

模型压缩95%,MIT韩松等人提出新型Lite Transformer

表 5:在 WIKITEXT-103 数据集上的语言建模结果。

【编辑推荐】

真硬核! Build 2020: 自研超算挑战全球 Top5,最大语言模型将开源谷歌中国工程师提出颠覆性算法模型,Waymo实测可提高预测精准度推特CEO称随着人工智能兴起,程序员将“饭碗不保”Visual Studio 已整合 ML.NET 模型构建器首次曝光的计算模型!对标阿里?有没有想过你的中台只是废纸?【责任编辑:张燕妮 TEL:(010)68476606】
点赞 0

(编辑:泉州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读