论文翻译
RoBERTa:一种稳健优化的BERT预训练方法
https://arxiv.org/pdf/1907.11692 RoBERTa:一种稳健优化的BERT预训练方法 摘要 语言模型预训练已经带来了显著的性能提升,但对不同方法进行仔细比较具有挑战性。训练在计算上成本高昂,通常在不同大小的私有数据集上进行,并且,正如我们将展示的,超参数选择对最终结果有重大影响。我们提出了一项BERT预训练(Devlin等人,2019)的复制研究,该研究仔细测量了许多关键超参数和训练数据大小的影响。我们发现BERT的训练明显不足,并且可以匹配或超过其后发布的每个模型的性能。我们的最佳模型在GLUE、RACE和SQuAD上取得了最先进的结果。这些结果强调了先前被忽视的设计选择的重要性,并对最近报告的改进来源提出了质疑。我们发布了我们的模型和代码。 1 引言 ELMo(Peters等人,2018)、GPT(Radford等人,2018)、BERT(Devlin等人,2019)、XLM(Lample和Conneau,2019)和XLNet(Yang等人,2019)等自训练方法带来了显著的性能提升,但确定这些方法中哪些方面贡献最大可能具有挑
陕公网安备61011302002223号