美团BERT的探求和实际
作者头像
  • 今日科技微观
  • 2019-11-16 20:12:39 8

背景

2018年,自然语言处理(NLP)领域最令人兴奋的进步之一是预训练语言模型,包括基于循环神经网络(RNN)的ELMo和ULMFiT,以及基于Transformer的OpenAI GPT和Google BERT等。这些模型不仅展示了从海量无标注文本中学习潜在语义信息的能力,还开创了NLP研究的新范式:首先利用大量无监督语料进行预训练,再用少量标注语料进行微调以完成具体的NLP任务(如分类、序列标注、句子关系判断和机器阅读理解等)。

图片和图表

图1展示了NLP预训练和微调的新范式及其相关扩展工作。

图像领域的预训练

图像领域的预训练成功启发了NLP领域。在图像识别中,预训练模型通过在大规模数据集上学习图像分类能力,然后再通过微调适应具体任务,取得了显著的成功。例如,基于ImageNet的预训练模型在目标检测和语义分割任务中表现出色,提高了检测率约20%。

NLP中的预训练

在NLP中,预训练同样有效。通过预训练词向量,可以增强模型的泛化能力,尤其是在有限标注数据的情况下。预训练词向量通常只编码词之间的关系,而忽略了上下文信息,这导致了一词多义的问题。为了解决这个问题,ELMo和Context2Vec等模型通过深度双向LSTM网络来捕捉上下文信息,从而提高了词向量的质量。

BERT模型

BERT是基于Transformer的深度双向语言表征模型。它在多项NLP任务中取得了突破性的成绩,特别是在11项自然语言理解任务中刷新了最佳成绩。BERT的成功得益于其预训练过程中的两个关键任务:掩码语言模型(Masked Language Model, MLM)和下一句预测(Next Sentence Prediction, NSP)。尽管NSP任务在某些研究中被证明不是必需的,但它在训练初期有助于模型更好地理解句子间的联系。

数据和算力

Google发布的BERT模型使用了大规模语料库进行预训练,包括BooksCorpus和英文Wikipedia。训练所需的计算资源非常庞大,Google AI团队使用了强大的Cloud TPU进行训练。相比之下,国内公司主要使用NVIDIA GPU进行训练。

美团点评的实践

美团点评作为中国领先的生活服务电子商务平台,积累了大量的用户评价数据。为了高效处理这些数据,美团点评研发了适合自身业务场景的预训练模型MT-BERT。通过混合精度训练和知识图谱的融合,MT-BERT在多项业务场景中取得了优异的表现。

MT-BERT的实现

MT-BERT通过四个阶段的优化实现了性能提升: 1. 混合精度训练:加速训练并减少显存占用。 2. 领域适应:在通用中文语料基础上加入业务数据进行预训练。 3. 知识图谱融合:通过知识图谱中的实体信息增强模型的语义理解能力。 4. 微调:在业务数据上进行微调,以支持不同类型的应用需求。

应用案例

MT-BERT在多个实际应用场景中得到了广泛应用,包括细粒度情感分析、Query意图分类、推荐理由分类、句间关系判断和序列标注等。这些应用显著提高了用户体验和业务效率。

未来展望

未来的研究将集中在一站式MT-BERT训练和推理平台的建设、知识图谱的融合以及模型的轻量化和小型化等方面,以进一步提升模型的性能和适用性。

参考文献

略去具体参考文献,但可以提及一些关键文献来源,如BERT、ULMFiT、ImageNet等。

    本文来源:图灵汇
责任编辑: : 今日科技微观
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
和实探求BERT
    下一篇