Facebook AI的RoBERTa改进了谷歌的BERT预训练方法
Facebook AI和华盛顿大学的研究人员设计了一些方法来增强Google的BERT语言模型,并在GLUE,SQuAD和RACE基准数据集中实现与先进或超过最先进结果的性能。研究人员详细介绍了RoBERTa如何在上周发表于arXiv的论文中发挥作用。
该模型被命名为RoBERTa,用于“稳健优化的BERT方法”,该模型采用了变形金刚双向编码器表示(BERT)所使用的许多技术,这是一种由谷歌去年秋天开源的新型自然语言模型。
RoBERTa的不同之处在于,它依赖于预训练大量数据和改变训练数据的掩蔽模式。在预训练中,原始BERT使用蒙面语言建模和下一句话预测,但RoBERTa删除了下一句话预测方法。
总的来说,RoBERTa在9个GLUE基准任务中的4个中实现了最先进的结果,并且拥有与XLNet相同的整体GLUE任务性能。
“我们发现BERT显着不足,可以匹配或超过其后发布的每个模型的性能,”报告中写道。“我们的培训改进表明,在正确的设计选择下,预先训练的蒙面语言模型与所有其他最近发布的方法相比具有竞争力。”
为了制作RoBERTa,研究人员使用1,024个Nvidia V100 GPU大约一天。
最初的BERT使用16GB BookCorpus数据集和英语维基百科进行训练,但RoBERTa使用了CommonCrawl(CC)-News,这是一个76GB的数据集,在2016年9月到2019年2月期间获得了6300万条英文新闻文章。
“最后,我们预先训练RoBERTa的时间要长得多,将预训练步数从100K增加到300K再增加到500K。我们再次观察到下游任务性能的显着提升,300K和500K步骤模型在大多数任务中都优于XLNet,“报告中写道。
RoBERTa的推出延续了大量语言理解人工智能系统OpenAI的GPT-2,Google Brain的XLNet和微软的MT-DNN,这些都是基准性能结果中超越BERT的一年。
培训此类模型的成本可能非常昂贵,并且具有相当大的碳足迹。
本月早些时候,在转型2019年,Facebook AI副总裁JérômePesenti表示,对于像谷歌和Facebook这样的公司来说,对尖端或强大系统的计算需求也是一个挑战。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【盘点关于创新的四字词语】在当今快速发展的社会中,创新已成为推动进步的重要动力。无论是企业、科研机构还...浏览全文>>
-
【盘点关于除夕的古诗词】除夕,作为中国农历年的最后一天,承载着丰富的文化内涵和情感寄托。自古以来,文人...浏览全文>>
-
【盘点公寓房和商品房的区别】在购房过程中,很多人会对“公寓房”和“商品房”这两个概念感到困惑。其实,这...浏览全文>>
-
【盘点跟兔子有关的网名】在如今的网络世界中,越来越多的人喜欢用一些可爱、有趣的网名来表达自己的个性或兴...浏览全文>>
-
【盘点跟手有关的成语】在汉语中,许多成语都与“手”这个字密切相关,它们不仅生动形象地描绘了人的动作或状...浏览全文>>
-
【盘点高中开学必备物品清单】随着新学期的临近,很多高中生和家长都在为开学做准备。为了帮助大家更高效地整...浏览全文>>
-
【盘点高考注意事项】高考是每个学生人生中的一次重要考试,关系到未来的发展方向。为了帮助考生在考试中发挥...浏览全文>>
-
【盘点高层顶楼最贵的原因】在房地产市场中,高层住宅的顶楼往往价格较高,许多购房者对此感到疑惑:为什么顶...浏览全文>>
-
【盘点非洲人与动物的纪录片】非洲,这片充满神秘与生机的土地,不仅是人类文明的摇篮,也是无数野生动物的家...浏览全文>>
-
【排骨炖玉米煮多少时间】在日常生活中,排骨炖玉米是一道非常受欢迎的家常菜,既营养丰富又味道鲜美。很多人...浏览全文>>