7月30日,文摘菌曾报道过,BERT在被谷歌XLNet超越之后,经由Facebook优化升级为“Robustly Optimized BERT Approach”(强力优化BERT方法),即RoBERTa。这项改进使RoBERTa在GLUE、SQuAD和RACE三个排行榜上再次占据领先地位。
在RACE测试集上,RoBERTa的准确率比原始BERT(large)提高了10个百分点,比XLNet(large)提高了2个百分点。
近期,Facebook AI团队进一步将RoBERTa应用到SuperGLUE挑战赛中。SuperGLUE在GLUE的基础上增加了更多复杂任务,如常识推理和词义消歧等。RoBERTa在SuperGLUE榜单上的表现非常出色,比BERT领先15个百分点,几乎逼近人类水平。
SuperGLUE不仅涵盖了GLUE中的多项任务,还新增了一些更具挑战性的任务,如CB(短文本语料库)、MultiRC(真假问答数据集)、COPA(因果推理)和WiC(词义消歧)等。
尽管RoBERTa在SuperGLUE上的得分距离人类只有5.2分,但NYU数据科学中心的助理教授Sam Bowman认为,目前BERT在许多任务上的性能已经接近极限。RoBERTa之所以表现出色,部分原因在于其训练所用的数据集(如ReCoRD和MultiRC)非常丰富。然而,当应用于数据不足的任务时,RoBERTa的效果可能会大打折扣。例如,在RTE(文本蕴含识别)任务中,RoBERTa仍然难以处理一些特定类型的推理问题。
Bowman表示,他认为RoBERTa存在一个明显的上限,而人们对人类表现的估计可能相对保守。未来要取得突破,尤其是在接下来的5到10个百分点内,将会更加困难。
让我们期待通过强大的计算能力和更大的模型(如Transformer),自然语言处理技术能够达到怎样的新高度。