本书旨在介绍自然语言处理的重要理论和实践知识,涵盖相关学科的基础知识、应用技术和工具。市场上关于自然语言处理的书籍较少,而且大多侧重于理论,缺乏实际操作的内容。自然语言处理是一门跨学科的领域,初学者往往难以掌握其广度和深度。为此,本书经过精心设计,通过理论与实例相结合的方式,帮助读者全面了解自然语言处理。
自然语言处理是什么?它有哪些应用场景?本书详细解答这些问题。作者结合教学经验与工程应用,编写了这本《自然语言处理理论与实战》。书中不仅讲解了自然语言处理的基本概念和理论,还介绍了如何在实际环境中应用这些知识和技术。书中还涉及多种开发工具、编程语言、线性代数、概率论、统计学、语言学等内容,最后通过综合性的实例展示了自然语言处理的应用。
第1章 基础入门
第2章 快速上手 Python
第3章 线性代数
第4章 概率论
第5章 统计学
第6章 语言学
第7章 自然语言处理
第8章 语料库
第9章 中文自动分词
第10章 数据预处理
第11章 马尔可夫模型
第12章 条件随机场
第13章 模型评估
第14章 命名实体识别
第15章 自然语言处理实战
本书适合具备一定编程基础的计算机专业、软件工程专业、通信专业、电子技术专业和自动化专业的大学二年级以上的学生。此外,一些做工程应用的自然语言处理工程师也可以通过阅读本书来补充理论知识。本书整体难度适宜,适合作为自学用书或课程教材。
本书共分为四大部分,共计15章。第一部分为基础部分,从第1章至第6章,主要介绍自然语言处理中常用的学科知识,包括自然语言处理概述、Python 基础知识和环境搭建、线性代数、概率论、统计学、语言学。第二部分为理论部分,从第7章至第14章,主要介绍自然语言处理的理论知识,包括自然语言处理任务限制、技术范畴、语料库、中文自动分词、数据预处理、马尔可夫模型、条件随机场、模型评估和命名实体识别。第三部分为实战部分,第15章通过 GitHub 数据提取与可视化分析、微博话题爬取与存储分析,综合介绍网络爬虫、中文分词、数据处理、模型选择、数据分析、自然语言处理工具和数据可视化等技术点。