第一个测试时在Raffel et al. 2019年引入的“Colossal Clean Crawled Corpus”(C4)上进行。采用了masked language model task,令模型预测消失的tokens。测试中随机drop out百分之15的token并使用一个前缀token来替换mask序列。我们记录困惑度(Negative Log Perplexity)进行对比。 上表显示: 1、在速度-质量的指标上,Switch-Transformer超过了精密微调的稠密模型,与MoE Transformer。在有限的计算量与工作时间下,Switch Transformer都得到了最优的结果; 2、Switch Transformer有更小的计算足迹(computational footprint); 3、在更小的capactiy factor下,Switch Transformer工作的效果更佳。
4)提升训练与微调的技术
稀疏专家模型相比普通Transformer更难训练,这是由于切换通道带来的不稳定引起的,同时,低精度计算会导致恶化softmax计算中的问题,下面列举训练中遇到的问题,以及本文解决的方法。Selective Precision with Large Sparse Model: 在MoE的工作中,作者发现低精度训练存在的问题,并通过float32精度数据训练解决,但是此举会引入更高的通信开销,本文工作发现,在局部引入高精度的训练,而非全局采用,就可以达到理想的稳定性,测试效果如表2所示。 small Parameter Initialization for Stability: 参数初始化对模型训练十分关键,本文中采用了Transformer的初始化方案,但将其均值缩放了10倍,提升了模型的稳定性能,测试比较结果如下:Regularizing Large Sparse Model: 本文中采用的方法是常规的预训练+微调方法,常见的问题是,由于下游任务的数据较少,在微调过程中容易发生过拟合现象,在以往的模型中已经非常常见,但是本文中的模型有着更大量的参数,因此会导致更加严重的过拟合现象。本文通过在微调过程中,增加在每个expert中的dropout比例来缓解过拟合。
这篇论文的作者都来自谷歌大脑,分别为:William Fedus,Barret Zoph,Noam Shazeer。 其中一作Fedus是蒙特利尔大学博士生,师从 Hugo Larochelle和Yoshua Bengio, Google Brain学生研究员。目前研究领域主要为监督、无监督机器学习和强化学习。本科在MIT攻读物理学,参与暗物质方向的研究,硕士毕业于加州大学圣地亚哥分校。曾经在ICLR 2018、NeurIPS 2019、ICML 2020等顶会发表一作论文。 作为共同一作的 Barret Zoph 是 Google Brain团队的高级研究员。 此前在南加州大学的资讯科学研究院( ISI )与 Kevin Knight 和 Daniel Marcu 教授合作研究神经网络机器翻译的相关课题。曾在CVPR 2018、NeurIPS 2020、ECCV 2020等发表顶会一作文章。 值得注意的是,作者之一Noam Shazeer正是「Attention is all your need」的作者之一。