近日,百度推出了一种名为 ERNIE(Enhanced Representation from kNowledge IntEgration)的知识增强语义表示模型,并在 PaddlePaddle 平台上发布了相应的开源代码和模型。测试显示,ERNIE 在多项中文自然语言处理任务中的表现全面超越了 BERT。
ERNIE 的项目地址位于:https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE
近年来,无监督文本的深度神经网络预训练模型显著提高了自然语言处理任务的效果。早期的研究主要集中在上下文相关的词向量建模,随后出现了如 Cove、ELMo、GPT 等模型,它们构建了句子级别的语义表示。Google 最近推出的 BERT 模型利用双向 Transformer 架构来预测屏蔽的词,取得了更好的效果。
尽管 Cove、ELMo、GPT 和 BERT 等模型在处理语言信号方面表现出色,但它们较少关注语义知识单元的建模,尤其是在中文处理方面更为明显。例如,BERT 在处理中白话语时,难以捕捉到更大的语义单元的完整含义,如“乒乓球”、“清明上河图”。
为解决这一问题,百度提出了 ERNIE 模型,该模型通过建模海量数据中的实体概念等语义知识,学习真实世界的语义关系。ERNIE 通过对词、实体等语义单元的掩码,使模型能够学习完整的语义表示,而不是仅仅依赖原始的语言信号。
举例说明: BERT 模型在学习时可能会根据部分共现信息猜测出某些词语,而 ERNIE 则能更好地学习词与实体之间的关系。例如,在预测“哈尔滨”的相关信息时,ERNIE 能够识别“哈尔滨”是黑龙江省的省会,并且是一个著名的冰雪城市。
ERNIE 模型基于字特征输入,使其在应用时无需依赖额外信息,更具通用性和可扩展性。此外,ERNIE 的训练数据不仅包括百科类文章,还涵盖了新闻资讯和论坛对话等多种来源的数据。特别是,ERNIE 使用了 DLM(Dialogue Language Model)来建模对话结构,从而提升语义表示能力。
ERNIE 模型在多个公开的中文数据集上进行了测试,包括语义相似度任务 LCQMC、情感分析任务 ChnSentiCorp、命名实体识别任务 MSRA-NER 和检索式问答匹配任务 NLPCC-DBQA。实验结果表明,ERNIE 在这些任务中的表现均优于 BERT。
百度表示,这项技术突破将应用于多种产品和服务,以提升用户体验。未来,百度将继续研究基于知识融合的预训练模型,并将其推广到其他语言环境中进行验证。百度的自然语言处理团队致力于通过理解和处理语言,来改善人们的生活质量。