机器学习最常见的30个基本概念

2020-06-28 18:39:51 1

+关注

机器学习基础概览

本文主要介绍机器学习的基础知识，包括一些关键概念、模型算法原理及具体的建模过程。

01 空间表征

在深入了解机器学习理论之前，让我们先了解一些机器学习的基本概念。

特征：指的是一个具体对象的属性描述，通常用属性向量表示。例如，第j个记录xj的属性向量可以表示为：xj=(xj(1)，xj(2)，…，xj(i)，…，xj(n))，其中每个xj(i)代表一个特征维度上的取值。
标记：又称样本标签，用于描述对象的特定属性。
标记值：标记的具体取值。在二分类问题中，通常取值为0和1。
标记空间：所有标记的集合，记为Y。
样本：拥有对应标记的数据记录，由（记录，标记）对表示。例如，第j个样本可以表示为：(xj，yj)，其中xj∈X，yj∈Y。

假设空间F通常由一个参数向量决定的函数族构成：

F={f|Y=fw(X)，w∈Rn}

其中，参数向量w取值于n维向量空间Rn，称为参数空间。假设空间F也可以定义为条件概率的集合（概率模型）：

F={P|P(Y|X)}

其中，X是定义在输入空间X上的随机变量，Y是定义在输入空间Y上的随机变量。

通过一个实际例子来理解相关概念。

首先，在建立模型之前，必须有一个由多个样本组成的样本集。例如：

（用户A，{年龄：29，身高：185，年支出：70，婚姻状况：未婚，状态：逾期}）

（用户B，{年龄：24，身高：167，年支出：31，婚姻状况：已婚，状态：未逾期}）

（用户C，{年龄：46，身高：177，年支出：50，婚姻状况：离异，状态：未逾期}）

...

每个用户及其属性对称为一个样本（或观测）。这样的一系列用户及其属性构成了样本集，其中用户A、B、C构成了样本空间，"年龄"、"身高"、"年支出"、"婚姻状况"构成了特征空间。

此外，还有参数空间，即由组成预测函数的所有参数取值构成的空间。"状态"字段则代表样本的标签，即需要模型来判断的结果。

在这个例子中，特征空间有4个维度：年龄、身高、年支出、婚姻状况。这些维度决定了特征空间的维度。在理想情况下，模型期望每个特征之间互不干扰，但在实际情况中，每个特征之间可能存在关联。

例如，我们可以将年龄和身高这两个维度绘制成图表。当处于低龄时（0～8岁），我们可以清晰地看到身高随着年龄的增长而增加，如图所示。

婚姻状况这个特征可能取值为{未婚、已婚、离异}，这三个取值限制了特征空间在婚姻状况维度上的取值。

如果数据中只有{未婚、离异}这两种取值的样本，则称这个数据集不能完整表征其所在的样本空间，即在某一个特征维度上，有些值没有被观测到，无法很好地观察到这个维度特征的真实分布。

通过已观察的样本点，只能表征出部分空间，如图所示。

02 模型学习

模型训练（又称为学习或拟合），是指通过将数据传递给模型，使模型学习到数据的潜在规律（如数据的分布）的过程。建立模型的本质是从数据分布中抽象出一个决策函数。

决策函数（非概率模型）的定义是从输入空间X到输出空间Y的映射f:X→Y。

假设空间F定义为决策函数的集合，其形式如下：

F={f|Y=f(X)}

其中，X是定义在输入空间X上的变量，X∈X；Y是定义在输出空间Y上的变量。

当要预测的是离散值时，例如一个人是男还是女，或者一个用户是否会违约，这样的任务称为分类。与此相对，如果要预测一个人的年龄或一个用户将在未来哪一天还款，这样的任务称为回归。

当任务只有两个取值时称为二分类任务。评分卡模型就是一种典型的二分类任务，即预测一个用户是否会违约。当任务涉及多个类别时，称为多分类任务。

例如，在做欺诈检测时，预测一个用户是否欺诈，这看似是一个二分类任务（预测是否欺诈），但实际上，每种欺诈手段都是一个独立的类别，因此它本质上是一个多分类任务。

从数据是否带有标签的角度看，模型可以分为三大类：监督学习、半监督学习和无监督学习。

监督学习：在评分卡建模过程中，已经明确知道样本集中每个用户的标签，即可以随意取一个人，都知道他的违约状态。
无监督学习：在建模时，完全没有当前样本集的任何标签信息，即完全不知道哪些人是违约的。
半监督学习：介于监督学习和无监督学习之间，对于当前样本集，只知道其中一部分样本的标签，另一部分则不知道其是否违约。

通常情况下，模型的效果排序如下：

监督学习 > 半监督学习 > 无监督学习

在大多数情况下，应尽可能利用标签信息，这样得到的模型效果会更好。然而，很多时候，是否拥有标签并不是由个人决定的。例如，很多平台没有欺诈用户的标签，此时训练一个监督模型会非常困难，而半监督及无监督学习可以起到一定的作用。

03 模型评估

对于模型学习的结果，主要关注两点：欠拟合和过拟合。

欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或者模型没有很好地捕捉到数据特征，不能很好地拟合数据。换句话说，模型在学习过程中没有很好地掌握该掌握的知识，模型学习偏差较大。

过拟合是指为了达到一致假设而使假设变得过于严格，即模型学习得太具体，将一些个例的特点当作共性，使得模型的泛化能力较低。

图示很好地解释了过拟合与欠拟合的含义，a图表示欠拟合，b图表示一个良好的拟合，c图则表示过拟合。简单来说，过拟合就是模型学得太细，欠拟合就是学得太粗。

模型结构越复杂，通常越倾向于过拟合。而样本量越大，数据分布越充分，模型越不容易过拟合。为了更好地表示过拟合和欠拟合，通常建模时会将样本集划分为训练集和测试集。

训练集用于模型训练，而测试集主要用于模型测试，以检验模型的效果。一般认为，如果模型在训练集上表现良好但在测试集上表现不佳，说明模型可能过拟合；如果模型在训练集上表现较差，则有欠拟合的风险。

在训练模型时，不仅希望模型在训练集上表现良好，还希望模型在其他数据集上也有很好的表现。训练集与测试集表现之间的差异称为泛化误差，而泛化误差由三部分组成：偏差、方差和噪声。

偏差衡量模型的期望预测与真实结果之间的偏离程度，即模型本身的拟合能力。
方差衡量相同大小的训练集变动所导致的学习能力变化，即数据扰动造成的影响。
噪声描述问题本身的拟合难度。

图示展示了训练程度与误差的关系。

通常在最终模型上线前，会将测试集和训练集整合，重新拟合模型的系数，以获得最终模型。这是因为更大的数据集有助于更充分地表征样本空间。例如，之前例子中的数据集：

（用户A，{年龄：29，身高：185，年支出：70，婚姻状况：未婚，状态：逾期}）

（用户B，{年龄：24，身高：167，年支出：31，婚姻状况：已婚，状态：未逾期}）

（用户C，{年龄：46，身高：177，年支出：50，婚姻状况：离异，状态：未逾期}）

...

如果训练集中缺少某些值，只存在于测试集中，那么将测试集和训练集合并后，对未来用户进行预测时偏差会更小。

但某些模型，如极端梯度提升机（XGBoost），需要利用测试样本集提前终止训练过程，因此需要额外选择部分样本不参与训练，例如从原始训练集中选择少量样本作为提前终止的依据。

关于作者

梅行：资深风控技术专家、AI技术专家和算法专家，曾在多家知名金融科技公司担任算法研究员和数据挖掘工程师。师从Experian、Discover等企业的资深风控专家，擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法，热衷于数据挖掘以及算法的跨领域优化理论。
毛鑫宇：资深品牌视觉设计师、插画设计师，曾任职于国内知名文旅公司品牌设计师，设计打造多个知名文化旅游目的地及品牌设计案例。

编辑：黄继彦

—— 完 ——

若想了解更多数据科学领域的最新动态，请关注清华-青岛数据科学研究院官方微信公众平台“数据派THU”。

图灵汇

责任编辑：：

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。