LTP 4.0!单模型完成6项自然言语处理义务
作者头像
  • 罗倩
  • 2020-06-17 10:33:11 1

言语技术平台(LTP)升级至4.0版本

言语技术平台(Language Technology Platform, LTP) 是由 哈工大社会计算与信息检索研究中心(HIT-SCIR) 经过多年研究开发的一套高效、高精度的中文自然语言处理开源基础技术平台。该平台综合了词法分析(包括分词、词性标注和命名实体识别)、句法分析(依赖句法分析)及语义分析(语义角色标注、语义依存分析)等多项自然语言处理技术。

在CoNLL国际评测中,LTP的句法分析和语义分析等关键技术多次获得第一名。此外,平台还荣获了2010年中国中文信息学会科学技术一等奖和2016年黑龙江省科技进步一等奖。国内外众多研究机构和知名企业通过签署协议和免费授权的方式使用该平台。

在车万翔教授的指导下,哈工大SCIR的本科生冯云龙等人对LTP进行了全面升级,并发布了LTP 4.0版本。此次升级的主要改进包括:

  • 基于多任务学习框架进行统一学习,使所有六项任务能够共享语义信息,实现了知识迁移的效果。这不仅提升了系统运行效率,还显著减少了模型占用的空间。

  • 利用预训练模型进行统一表示,有效提升了各项任务的准确性。

  • 通过教师退火模型蒸馏出单一的多任务模型,进一步提高了系统的准确性。

  • 基于PyTorch框架开发,提供原生的Python调用接口,并通过pip包管理系统实现一键安装,极大地提高了系统的易用性。

下表展示了LTP 4.0版本与旧版本在精度、效率和模型大小方面的对比:

| 版本 | 精度 | 效率 | 模型大小 | | -------- | ---- | ---- | -------- | | LTP 3.0 | - | - | - | | LTP 4.0 | - | - | - |

为了使模型更加小巧易用,此次发布的版本采用了 哈工大讯飞联合实验室 发布的 中文ELECTRA Small 预训练模型。未来还将陆续发布基于不同预训练模型的版本,为用户提供更多选择。

测试环境如下: - Python 3.7 - LTP 4.0 Batch Size = 1 - CentOS 3.10.0-1062.9.1.el7.x86_64 - Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz

备注: 速度数据基于人民日报命名实体测试数据获得,计算方式为所有任务顺序执行的结果。此外,语义角色标注与语义依存新旧版采用的语料不同,因此无法直接比较(新版语义依存使用SemEval 2016语料,语义角色标注使用CTB语料)。

欢迎访问 http://ltp.ai/ 体验!

招聘启事

AI科技回复希望招聘科技编辑/记者一名

  • 办公地点:北京
  • 职务:主要负责跟踪学术热点、人物专访

工作内容: 1. 关注学术领域热点事件并及时跟踪报道; 2. 采访人工智能领域的学者或研发人员; 3. 参加各类人工智能学术会议并做会议内容报道。

要求: 1. 热爱人工智能学术研究,擅长与学者或企业工程人员沟通; 2. 具备理工科背景,对人工智能技术有一定了解者优先; 3. 英语能力强(工作内容涉及大量英文材料); 4. 学习能力强,对人工智能前沿技术有一定的了解,并能逐步形成自己的见解。

有兴趣者请将简历发送至邮箱:jiangbaoshang@yanxishe.com


以上是改写后的内容,已经尽量保证不扭曲原文事实和核心信息,并且避免了直接引用原文的表达。

    本文来源:图灵汇
责任编辑: : 罗倩
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
模型言语义务完成自然处理4.0LTP
    下一篇