Facebook AI的RoBERTa改进了谷歌的BERT预训练方法
Facebook AI和华盛顿大学的研究人员设计了一些方法来增强Google的BERT语言模型,并在GLUE,SQuAD和RACE基准数据集中实现与先进或超过最先进结果的性能。研究人员详细介绍了RoBERTa如何在上周发表于arXiv的论文中发挥作用。
该模型被命名为RoBERTa,用于“稳健优化的BERT方法”,该模型采用了变形金刚双向编码器表示(BERT)所使用的许多技术,这是一种由谷歌去年秋天开源的新型自然语言模型。
RoBERTa的不同之处在于,它依赖于预训练大量数据和改变训练数据的掩蔽模式。在预训练中,原始BERT使用蒙面语言建模和下一句话预测,但RoBERTa删除了下一句话预测方法。
总的来说,RoBERTa在9个GLUE基准任务中的4个中实现了最先进的结果,并且拥有与XLNet相同的整体GLUE任务性能。
“我们发现BERT显着不足,可以匹配或超过其后发布的每个模型的性能,”报告中写道。“我们的培训改进表明,在正确的设计选择下,预先训练的蒙面语言模型与所有其他最近发布的方法相比具有竞争力。”
为了制作RoBERTa,研究人员使用1,024个Nvidia V100 GPU大约一天。
最初的BERT使用16GB BookCorpus数据集和英语维基百科进行训练,但RoBERTa使用了CommonCrawl(CC)-News,这是一个76GB的数据集,在2016年9月到2019年2月期间获得了6300万条英文新闻文章。
“最后,我们预先训练RoBERTa的时间要长得多,将预训练步数从100K增加到300K再增加到500K。我们再次观察到下游任务性能的显着提升,300K和500K步骤模型在大多数任务中都优于XLNet,“报告中写道。
RoBERTa的推出延续了大量语言理解人工智能系统OpenAI的GPT-2,Google Brain的XLNet和微软的MT-DNN,这些都是基准性能结果中超越BERT的一年。
培训此类模型的成本可能非常昂贵,并且具有相当大的碳足迹。
本月早些时候,在转型2019年,Facebook AI副总裁JérômePesenti表示,对于像谷歌和Facebook这样的公司来说,对尖端或强大系统的计算需求也是一个挑战。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【目鱼干怎么晒干】目鱼干是一种传统的海产品,常用于煲汤或炖菜,具有鲜美、营养丰富的特点。想要制作出优质...浏览全文>>
-
【目送散文内容介绍龙应台目送赏析】一、文章龙应台的散文《目送》是其作品《目送》一书中的代表作之一,以细...浏览全文>>
-
【目前最火爆的葡萄品种排名】近年来,随着葡萄酒消费市场的不断增长,葡萄品种的热度也在持续上升。不同的葡...浏览全文>>
-
【目前最好用的云电脑排行】在如今数字化办公和娱乐需求日益增长的背景下,云电脑逐渐成为许多用户的选择。它...浏览全文>>
-
【目前最好的壮阳药】在男性健康领域,壮阳药一直是备受关注的话题。随着现代生活节奏加快、压力增大以及年龄...浏览全文>>
-
【目前植物组培常见种类有哪些】植物组织培养(简称“组培”)是一种在无菌条件下,利用植物的细胞、组织或器...浏览全文>>
-
【目前有发展的行业】在当前经济环境不断变化的背景下,一些行业正展现出强劲的发展势头。这些行业不仅受到政...浏览全文>>
-
【目前用什么软件排课最好】在学校的教学管理中,课程安排是一项非常重要的工作。合理的排课不仅能提高教学效...浏览全文>>
-
【木兰星歌词介绍】《木兰星》是一首融合了现代音乐风格与传统文化元素的原创歌曲,歌词内容围绕“木兰”这一...浏览全文>>
-
【木兰诗写的是什么的故事】《木兰诗》是中国古代著名的叙事诗之一,最早见于南朝时期,后被收录在《乐府诗集...浏览全文>>