图解 72 个机器学习基础知识点
作者头像
  • 郑海静
  • 2023-07-24 08:13:19 9

图解机器学习算法系列

1. 机器学习概述

1)什么是机器学习

人工智能是指研究、开发用于模拟、延伸和扩展人类智能的技术科学,旨在使计算机能够像人一样思考和行动。这一概念较为广泛,最终目的是让计算机拥有与人相同的智能水平。

大约在上世纪五十年代,人工智能开始兴起,但由于当时的数据和硬件条件有限,其发展速度较慢。

机器学习是人工智能的一个分支,旨在通过算法使计算机具备学习能力,从而获取新的知识或技能,并不断提升性能。机器学习在上世纪八十年代开始迅速发展,产生了许多基于数学和统计学的模型。

深度学习则是机器学习的一个子集,灵感来源于人脑的神经网络结构。它通过多层神经网络进行学习,其中“深度”通常指神经网络中的隐藏层数量。深度学习在2012年后迅猛发展,广泛应用于各类场景。

国外知名学者对机器学习的定义是:“机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身。”

从实际角度来看,机器学习依赖于大量数据的支持,通过各种算法进行深层次的统计分析,使计算机具备归纳推理和决策能力。

通过经典的垃圾邮件过滤应用,我们可以更好地理解机器学习的原理,以及定义中的T、E、P分别代表什么:

  • T:任务,例如识别垃圾邮件。
  • E:经验,即已有的数据和样本。
  • P:性能,即算法在新数据上的表现。
2)机器学习三要素

机器学习的三大要素包括数据、模型和算法。它们之间的关系可以通过下图来表示:

  • 数据:数据驱动意味着我们基于客观的量化数据,通过数据分析来支持决策。与之相对的是经验驱动,例如“拍脑袋”。

  • 模型:在数据驱动的范畴内,模型是指基于数据X做决策Y的假设函数,可以有不同的形态,例如计算型和规则型。

  • 算法:算法是指具体计算模型的方法,通常是一个最优化问题。它包括选择最优模型的过程,并考虑计算方法。

2. 机器学习发展历程

人工智能一词最早出现于1956年,用于探索有效解决方案。1960年,美国国防部借助“神经网络”这一概念,训练计算机模仿人类的推理过程。

直到2010年之前,谷歌、微软等科技巨头改进了机器学习算法,将查询的准确度提升到了新的高度。随着数据量的增加、先进算法的出现、计算和存储容量的提高,机器学习得到了更进一步的发展。

3. 机器学习核心技术

机器学习的核心技术主要包括分类、聚类、异常检测和回归

  • 分类:根据已有数据训练模型,对新样本进行精准分类和预测。
  • 聚类:从海量数据中识别数据的相似性和差异性,并按最大共同点将其分为多个类别。
  • 异常检测:通过分析数据点的分布规律,识别与正常数据存在显著差异的异常点。
  • 回归:基于已知属性值的数据训练模型,寻找最佳拟合参数,预测新样本的输出值。

4. 机器学习基本流程

机器学习的工作流程包括数据预处理、模型学习、模型评估和新样本预测。

  • 数据预处理:输入未处理的数据和标签,经过特征处理、幅度缩放、特征选择、维度约简和采样等步骤,输出测试集和训练集。
  • 模型学习:选择模型、交叉验证、结果评估和超参数选择。
  • 模型评估:了解模型对测试集的得分。
  • 新样本预测:预测测试集的结果。

5. 机器学习应用场景

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。

  • 智能医疗:包括智能假肢、外骨骼、医疗保健机器人、手术机器人和智能健康管理等。
  • 人脸识别:应用于门禁系统、考勤系统、人脸识别防盗门、电子护照及身份证等。
  • 机器人的控制领域:包括工业机器人、机械臂、多足机器人、扫地机器人和无人机等。

6. 机器学习基本名词

  • 监督学习:训练集有标记信息,学习方式有分类和回归。
  • 无监督学习:训练集没有标记信息,学习方式有聚类和降维。
  • 强化学习:有延迟和稀疏的反馈标签的学习方式。

其他名词还包括示例/样本属性/特征属性空间/样本空间/输入空间X特征向量标记分类假设真相学习过程泛化能力等。

7. 机器学习算法分类

1)机器学习算法依托的问题场景

机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要设计和分析一些让计算机自动学习的算法。

机器学习理论主要关注行之有效的学习算法,很多推论问题属于无程序可循难度,因此部分机器学习研究是开发容易处理的近似算法。

机器学习最主要的类别包括监督学习、无监督学习和强化学习。

  • 监督学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。常见的监督学习算法包括回归分析和统计分类。
  • 无监督学习:与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络(GAN)和聚类。
  • 强化学习:通过观察来学习如何做出合适的动作,每个动作都会对环境产生影响,学习对象根据观察到的周围环境的反馈来做出判断。
2)分类问题

分类问题是机器学习的重要组成部分。其目标是根据已知样本的某些特征,判断新的样本属于哪种已知的样本类。分类问题可以细分如下:

  • 二分类问题:表示分类任务中有两个类别。
  • 多类分类:表示分类任务中有多个类别。
  • 多标签分类:给每个样本一系列的目标标签。

了解更多分类算法包括KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型和支持向量机模型等。

3)回归问题

了解更多回归算法包括决策树模型、随机森林分类模型、GBDT模型、回归树模型和支持向量机模型等。

4)聚类问题

了解更多聚类算法包括聚类算法等。

5)降维问题

了解更多降维算法包括PCA降维算法等。

8. 机器学习模型评估与选择

1)机器学习与数据拟合

机器学习最典型的监督学习包括分类与回归问题。分类问题中,我们学习出一条“决策边界”来区分数据;在回归问题中,我们学习出拟合样本分布的曲线。

2)训练集与数据集

以房价预估为例,讲述一下涉及的概念。

  • 训练集:帮助训练模型,通过训练集的数据确定拟合曲线的参数。
  • 测试集:用于测试已经训练好的模型的精确度。
3)经验误差

在训练集的数据上进行学习。模型在训练集上的误差称为“经验误差”。经验误差并非越小越好,因为我们希望模型在新的数据上也有良好的表现。

4)过拟合

过拟合指的是模型在训练集上表现良好,但在交叉验证集合测试集上表现一般,即模型对未知样本的预测表现不佳,泛化能力较差。防止过拟合的方法包括早期停止、数据集扩增、正则化和Dropout等。

5)偏差

偏差指的是模型拟合的偏差程度。简单模型通常高偏差,而复杂模型通常低偏差。

6)方差

方差指的是模型的平稳程度。简单模型的方差很小,而复杂模型的方差很大。

7)偏差与方差的平衡

偏差与方差的平衡是模型选择的关键。

8)性能度量指标

性能度量是衡量模型泛化能力的数值评价标准,反映了当前任务的需求。回归问题常用的性能度量指标包括平均绝对误差、均方误差、均方根误差和R平方等。分类问题常用的性能度量指标包括错误率、精确率、查准率、查全率、F1、ROC曲线和AUC曲线等。

9)评估方法

常见的评估方法有留出法、交叉验证法和自助法。留出法是从训练数据中保留出验证样本集,这部分数据不用于训练,而用于模型评估。交叉验证法是将数据分成k份,每次用k-1份数据训练,剩下一份数据验证,重复k次。自助法是一种通过有放回抽样生成大量伪样本的方法,通过对伪样本进行计算,获得统计量的分布,从而估计数据的整体分布。

10)模型调优与选择准则

我们希望找到对当前问题表达能力强且模型复杂度低的模型。表达能力强的模型可以较好地学习训练数据中的规律和模式;复杂度低的模型方差较小,不容易过拟合,有较好的泛化能力。

11)如何选择最优的模型
  • 验证集评估选择:将数据分为训练集和验证集,在训练集上训练模型,在验证集上评估。
  • 网格搜索/随机搜索交叉验证:通过网格搜索或随机搜索产出候选的超参数组,对每组超参数进行交叉验证评估,选出效果最好的超参数。
  • 贝叶斯优化:基于贝叶斯优化的超参数调优。

以上便是改写后的内容,确保了不扭曲原文事实和核心信息,并提高了文章的紧凑性和可读性。

    本文来源:图灵汇
责任编辑: : 郑海静
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
知识点图解机器基础学习72
    下一篇