人工智能与自然言语处理概述:AI三大阶段、NLP关键运用范畴
作者头像
  • 赵伟
  • 2020-06-18 17:04:50 4

人工智能与自然语言处理在大数据中的应用

近日,Xenonstack 发布了一篇关于人工智能及其在大数据中作用的文章,作者为 Jagreet Kaur。这篇文章详细介绍了人工智能及其细分领域的发展情况,并重点探讨了自然语言处理(NLP)在大数据中的重要性。

人工智能概述

人工智能(AI)是指使机器能够像人类一样执行智能任务的技术。AI 的核心在于自动化和智能的应用。

人工智能的目标

  • 推理
  • 自动学习与调度
  • 机器学习
  • 自然语言处理
  • 计算机视觉
  • 机器人
  • 通用智能

人工智能的发展阶段

  • 第一阶段:机器学习。智能系统利用算法从经验中学习。
  • 第二阶段:机器智能。系统使用高级算法(如深度神经网络)从经验中学习。
  • 第三阶段:机器认知。系统无需外部数据即可自主学习。

人工智能的类型

  • ANI(狭义人工智能):完成基础角色任务,如由 Siri、Alexa 这样的聊天机器人完成的任务。
  • AGI(通用人工智能):涵盖人类水平的任务,涉及机器的持续学习。
  • ASI(强人工智能):指比人类更聪明的机器。

什么使系统智能化?

  • 自然语言处理
  • 知识表示
  • 自动推理
  • 机器学习

NLP、人工智能、机器学习、深度学习和神经网络的区别

  • 人工智能:构建能够智能处理问题的系统。
  • 自然语言处理:构建能够理解语言的系统,属于人工智能的一个分支。
  • 机器学习:构建能够从经验中学习的系统,也是人工智能的一个分支。
  • 神经网络:受生物神经元启发的人工神经网络。
  • 深度学习:在大数据集上,构建使用深度神经网络的系统,属于机器学习的一个分支。

什么是自然语言处理?

自然语言处理(NLP)是指机器理解和解释人类书写和口语的能力。NLP 的目标是使计算机在理解语言方面达到人类的智能水平,缩小人类交流(自然语言)与计算机理解(机器语言)之间的差距。

NLP 的主要分析方法

  • 句法学:检查给定文本的语法正确性。
  • 语义学:确定给定文本的意义。
  • 语用学:确定文本的目的。

NLP 处理语言的不同方面

  • 音韵学:研究语音的系统化组织。
  • 词态学:研究单词的构成及其相互关系。

了解语义分析的方法

  • 分布式方法:应用大规模统计策略。
  • 框架式方法:在数据结构中表示具有相同意义的不同句子。
  • 理论式方法:基于句子部分内容表达整体意义。
  • 交互式(学习)方法:在交互式学习环境中,用户逐步教计算机学习语言。

我们为什么需要 NLP

NLP 使自动语音识别和自动文本生成成为可能。由于大量数据的存在,我们可以利用计算机的强大能力,自动运行算法来完成这些任务,从而节省时间和精力。这些任务还包括自动摘要生成和机器翻译。

NLP 的基本流程

  • 自然语言理解(NLU):理解给定文本的含义。
  • 自然语言生成(NLG):从结构化数据中生成可读的文本。

自然语言理解(NLU)

NLU 包括理解文本中的每个单词及其结构。在理解结构时,NLU 需要解决词法歧义性、句法歧义性、语义歧义性和回指歧义性。

自然语言生成(NLG)

NLG 是从结构化数据中自动生成文本的过程。它分为三个阶段:文本规划、语句规划和实现。

NLP 与文本挖掘的区别

  • NLP:理解给定文本的含义和结构。
  • 文本挖掘:通过模式识别提取文本数据中的隐藏信息。

NLP 在大数据中的应用

NLP 可以解析大型非结构化数据中的模式,从而更好地理解其中的信息。这在零售、医疗、金融等领域中特别有用。

什么是聊天机器人?

聊天机器人是一种可以通过聊天应用程序、聊天窗口或语音唤醒应用程序与人交流的计算机程序。它们也可以用作智能数字助手,成本低、效率高且可以持续工作。

聊天机器人的工作机制

  • 基于知识:包含信息库,根据客户的问题提供答案。
  • 数据存储:包含与用户交流的历史信息。
  • NLP 层:将用户的问题转化为信息,以便给出合适的回答。
  • 应用层:用于与用户互动的界面。

NLP 中为什么需要深度学习

  • 可表达性:描述机器如何近似通用函数。
  • 可训练性:深度学习系统快速学习的能力。
  • 可泛化性:在未训练的数据上进行预测的能力。

NLP 中深度学习的常见任务

  • 词嵌入
  • 序列标注
  • 机器翻译
  • 文本分类
  • 情感分析

传统 NLP 与深度学习 NLP 的区别

  • 传统 NLP:依赖手工设计特征。
  • 深度学习 NLP:通过端到端的学习,自动提取特征。

日志分析与日志挖掘中的 NLP

什么是日志?

日志是一系列时序信息的集合,表示不同网络设备或硬件的状态。它们可以存储在硬盘文档中,也可以发送到日志收集器。

什么是日志分析?

日志分析是从日志中提取信息的过程,分析信息中的句法和语义,解析使用环境,从而比较分析不同来源的日志文档,进行异常检测和关联发现。

什么是日志挖掘?

日志挖掘是从日志中提取模式和关联性的过程,从而发掘知识,预测日志中的异常事件。

日志分析和日志挖掘中的技术

  • 模式识别:将日志信息与模式库中的信息对比,过滤信息。
  • 标准化:将不同的信息转换为统一的格式。
  • 分类与标签:对信息进行排序并用关键词标注。
  • 人工忽略:使用机器学习算法丢弃无用的日志信息。

NLP 在日志分析和日志挖掘中的应用

NLP 技术广泛应用于日志分析和日志挖掘,通过词语切分、词干提取、词形还原和解析等方法,将日志信息转换为结构化的方式,从而提取有用的信息和知识。

深度自然语言处理

自然语言处理是一个复杂的领域,处于人工智能、计算语言学和计算机科学的交叉领域。

NLP 的其他关键应用

  • 自动摘要:从给定文本中提取主要信息。
  • 情感分析:预测文本的主题,判断其中是否包含判断、观点或回复。
  • 文本分类:根据类别对不同的期刊、新闻报道进行分类。
  • 信息提取:建议电子邮件程序自动添加事件到日历。
    本文来源:图灵汇
责任编辑: : 赵伟
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
人工智能范畴概述言语运用阶段关键自然三大处理
    下一篇