福利赠书!《自然语言处理理论与实战》
作者头像
  • 数据中心运维管理
  • 2018-08-10 11:55:23 1

前言

本书旨在介绍自然语言处理的重要理论和实践知识,涵盖相关学科的基础知识、应用技术和工具。市场上关于自然语言处理的书籍较少,而且大多侧重于理论,缺乏实际操作的内容。自然语言处理是一门跨学科的领域,初学者往往难以掌握其广度和深度。为此,本书经过精心设计,通过理论与实例相结合的方式,帮助读者全面了解自然语言处理。

编辑推荐

  1. 理论与实践结合:书中不仅介绍自然语言处理的理论知识,还提供了丰富的实战案例。
  2. 内容丰富:涵盖了自然语言处理所需的各种基础知识,包括编程语言、线性代数、概率论、统计学、语言学等。
  3. 适合入门:本书适合自然语言处理的初学者,通过实例引导读者逐步掌握相关技能。

内容提要

自然语言处理是什么?它有哪些应用场景?本书详细解答这些问题。作者结合教学经验与工程应用,编写了这本《自然语言处理理论与实战》。书中不仅讲解了自然语言处理的基本概念和理论,还介绍了如何在实际环境中应用这些知识和技术。书中还涉及多种开发工具、编程语言、线性代数、概率论、统计学、语言学等内容,最后通过综合性的实例展示了自然语言处理的应用。

目录

第一部分 基础入门

  • 第1章 基础入门

    • 1.1 自然语言处理概述
    • 1.1.1 自然语言处理的定义
    • 1.1.2 发展历程
    • 1.1.3 工作原理
    • 1.1.4 应用前景
    • 1.2 开发工具与环境
    • 1.2.1 Sublime Text 和 Anaconda
    • 1.2.2 开发环境的安装与配置
    • 1.3 实战:第一个小程序的诞生
    • 1.3.1 实例介绍
    • 1.3.2 源码实现
  • 第2章 快速上手 Python

    • 2.1 初识 Python 编程语言
    • 2.1.1 Python 概述
    • 2.1.2 Python 能做什么
    • 2.1.3 语法和特点
    • 2.2 进阶 Python
    • 2.2.1 Hello World
    • 2.2.2 语句和控制流
    • 2.2.3 函数
    • 2.2.4 列表
    • 2.2.5 元组
    • 2.2.6 集合
    • 2.2.7 字典
    • 2.2.8 面向对象编程:类
    • 2.2.9 标准库
    • 2.3 深入 Python —— 第三方库
    • 2.3.1 Web 框架
    • 2.3.2 科学计算
    • 2.3.3 GUI
    • 2.3.4 其他库
  • 第3章 线性代数

    • 3.1 线性代数介绍
    • 3.2 向量
    • 3.2.1 向量定义
    • 3.2.2 向量表示
    • 3.2.3 向量定理
    • 3.2.4 向量运算
    • 3.3 矩阵
    • 3.3.1 矩阵定义
    • 3.3.2 矩阵表示
    • 3.3.3 矩阵运算
    • 3.3.4 线性方程组
    • 3.3.5 行列式
    • 3.3.6 特征值和特征向量
    • 3.4 距离计算
    • 3.4.1 余弦距离
    • 3.4.2 欧氏距离
    • 3.4.3 曼哈顿距离
    • 3.4.4 明可夫斯基距离
    • 3.4.5 切比雪夫距离
    • 3.4.6 杰卡德距离
    • 3.4.7 汉明距离
    • 3.4.8 标准化欧式距离
    • 3.4.9 皮尔逊相关系数
  • 第4章 概率论

    • 4.1 概率论介绍
    • 4.2 事件
    • 4.2.1 随机试验
    • 4.2.2 随机事件和样本空间
    • 4.2.3 事件的计算
    • 4.3 概率
    • 4.4 概率公理
    • 4.5 条件概率和全概率
    • 4.5.1 条件概率
    • 4.5.2 全概率
    • 4.6 贝叶斯定理
    • 4.7 信息论
    • 4.7.1 信息论的基本概念
    • 4.7.2 信息度量
  • 第5章 统计学

    • 5.1 图形可视化
    • 5.1.1 饼图
    • 5.1.2 条形图
    • 5.1.3 热力图
    • 5.1.4 折线图
    • 5.1.5 箱线图
    • 5.1.6 散点图
    • 5.1.7 雷达图
    • 5.1.8 仪表盘
    • 5.1.9 可视化图表用法
    • 5.2 数据度量标准
    • 5.2.1 平均值
    • 5.2.2 中位数
    • 5.2.3 众数
    • 5.2.4 期望
    • 5.2.5 方差
    • 5.2.6 标准差
    • 5.2.7 标准分
    • 5.3 概率分布
    • 5.3.1 几何分布
    • 5.3.2 二项分布
    • 5.3.3 正态分布
    • 5.3.4 泊松分布
    • 5.4 统计假设检验
    • 5.5 相关和回归
    • 5.5.1 相关
    • 5.5.2 回归
    • 5.5.3 相关和回归的联系
  • 第6章 语言学

    • 6.1 语音
    • 6.1.1 什么是语音
    • 6.1.2 语音的三大属性
    • 6.1.3 语音单位
    • 6.1.4 记音符号
    • 6.1.5 共时语流音变
    • 6.2 词汇
    • 6.2.1 什么是词汇
    • 6.2.2 词汇单位
    • 6.2.3 词的构造
    • 6.2.4 词义及其分类
    • 6.2.5 义项与义素
    • 6.2.6 语义场
    • 6.2.7 词汇的构成
    • 6.3 语法
    • 6.3.1 什么是语法
    • 6.3.2 词类
    • 6.3.3 短语
    • 6.3.4 单句
    • 6.3.5 复句

第二部分 理论部分

  • 第7章 自然语言处理

    • 7.1 自然语言处理的任务和限制
    • 7.2 主要技术范畴
    • 7.2.1 语音合成
    • 7.2.2 语音识别
    • 7.2.3 中文自动分词
    • 7.2.4 词性标注
    • 7.2.5 句法分析
    • 7.2.6 文本分类
    • 7.2.7 文本挖掘
    • 7.2.8 信息抽取
    • 7.2.9 问答系统
    • 7.2.10 机器翻译
    • 7.2.11 文本情感分析
    • 7.2.12 自动摘要
    • 7.2.13 文字蕴涵
    • 7.3 自然语言处理的难点
    • 7.3.1 语言环境复杂
    • 7.3.2 文本结构形式多样
    • 7.3.3 边界识别限制
    • 7.3.4 词义消歧
    • 7.3.5 指代消解
    • 7.4 自然语言处理展望
  • 第8章 语料库

    • 8.1 语料库浅谈
    • 8.2 语料库深入
    • 8.3 自然语言处理工具包:NLTK
    • 8.3.1 NLTK 简介
    • 8.3.2 安装 NLTK
    • 8.3.3 使用 NLTK
    • 8.3.4 在 Python NLTK 下使用 Stanford NLP
    • 8.4 获取语料库
    • 8.4.1 国内外著名语料库
    • 8.4.2 网络数据获取
    • 8.4.3 NLTK 获取语料库
    • 8.5 综合案例:走进大秦帝国
    • 8.5.1 数据采集和预处理
    • 8.5.2 构建本地语料库
    • 8.5.3 大秦帝国语料操作
  • 第9章 中文自动分词

    • 9.1 中文分词简介
    • 9.2 中文分词的特点和难点
    • 9.3 常见中文分词方法
    • 9.4 典型中文分词工具
    • 9.4.1 HanLP 中文分词
    • 9.4.2 其他中文分词工具
    • 9.5 结巴中文分词
    • 9.5.1 基于 Python 的结巴中文分词
    • 9.5.2 结巴分词工具详解
    • 9.5.3 结巴分词核心内容
    • 9.5.4 结巴分词基本用法
  • 第10章 数据预处理

    • 10.1 数据清洗
    • 10.2 分词处理
    • 10.3 特征构造
    • 10.4 特征降维与选择
    • 10.4.1 特征降维
    • 10.4.2 特征选择
    • 10.5 简单实例
    • 10.6 本章小结

第三部分 实战部分

  • 第11章 马尔可夫模型

    • 11.1 马尔可夫链
    • 11.1.1 马尔可夫简介
    • 11.1.2 马尔可夫链的基本概念
    • 11.2 隐马尔可夫模型
    • 11.2.1 形式化描述
    • 11.2.2 数学形式描述
    • 11.3 向前算法解决 HMM 似然度
    • 11.3.1 向前算法定义
    • 11.3.2 向前算法原理
    • 11.3.3 现实应用:预测成都天气的冷热
    • 11.4 文本序列标注案例:Viterbi 算法
  • 第12章 条件随机场

    • 12.1 条件随机场介绍
    • 12.2 简单易懂的条件随机场
    • 12.2.1 CRF 的形式化表示
    • 12.2.2 CRF 的公式化表示
    • 12.2.3 深度理解条件随机场
  • 第13章 模型评估

    • 13.1 从统计角度介绍模型概念
    • 13.1.1 算法模型
    • 13.1.2 模型评估和模型选择
    • 13.1.3 过拟合与欠拟合的模型选择
    • 13.2 模型评估与选择
    • 13.2.1 模型评估的概念
    • 13.2.2 模型评估的评测指标
    • 13.2.3 以词性标注为例分析模型评估
    • 13.2.4 模型评估的几种方法
    • 13.3 ROC 曲线比较学习器模型
  • 第14章 命名实体识别

    • 14.1 命名实体识别概述
    • 14.2 命名实体识别的特点与难点
    • 14.3 命名实体识别方法
    • 14.4 中文命名实体识别的核心技术
    • 14.5 展望
  • 第15章 自然语言处理实战

    • 15.1 GitHub 数据提取与可视化分析
    • 15.1.1 了解 GitHub 的 API
    • 15.1.2 使用 NetworkX 作图
    • 15.1.3 使用 NetworkX 构建兴趣图
    • 15.1.4 NetWorkX 部分统计指标
    • 15.1.5 构建 GitHub 的兴趣图
    • 15.1.6 可视化
    • 15.2 微博话题爬取与存储分析
    • 15.2.1 数据采集
    • 15.2.2 数据提取
    • 15.2.3 数据存储
    • 15.2.4 项目运行与分析

读者对象

本书适合具备一定编程基础的计算机专业、软件工程专业、通信专业、电子技术专业和自动化专业的大学二年级以上的学生。此外,一些做工程应用的自然语言处理工程师也可以通过阅读本书来补充理论知识。本书整体难度适宜,适合作为自学用书或课程教材。

本书结构

本书共分为四大部分,共计15章。第一部分为基础部分,从第1章至第6章,主要介绍自然语言处理中常用的学科知识,包括自然语言处理概述、Python 基础知识和环境搭建、线性代数、概率论、统计学、语言学。第二部分为理论部分,从第7章至第14章,主要介绍自然语言处理的理论知识,包括自然语言处理任务限制、技术范畴、语料库、中文自动分词、数据预处理、马尔可夫模型、条件随机场、模型评估和命名实体识别。第三部分为实战部分,第15章通过 GitHub 数据提取与可视化分析、微博话题爬取与存储分析,综合介绍网络爬虫、中文分词、数据处理、模型选择、数据分析、自然语言处理工具和数据可视化等技术点。

    本文来源:图灵汇
责任编辑: : 数据中心运维管理
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
赠书自然语言实战福利理论处理
    下一篇