吐血整理:机器学习的30个基本概念,都在这里了(手绘图解)
作者头像
  • 天成有我
  • 2020-06-02 20:41:41 11

引言

本文主要介绍机器学习的基础知识,涵盖约30个专业术语的解释,以及基础模型的算法原理和建模过程。

01 基本概念

在深入探讨机器学习理论之前,我们先介绍一些最基本的概念。

特征

特征指的是具体事物的属性描述,通常由一组属性向量表示。第j个记录xj的属性向量可以表示为:xj=(xj(1),xj(2),…,xj(i),…,xj(n)),其中每个xj(i)代表一个特征维度上的取值。

标记

标记,又称样本标签,用于描述事物的特定属性。标记值是标记可能的取值,例如在二分类问题中,取值通常为0和1。

标记空间

标记空间,也称为输入空间,包含所有标记的集合,记为Y。

样例

样例,也称样本,是指具有对应标记的记录,表示为(记录,标记)对。例如,第j个样例可以表示为:(xj,yj)。

样本集与特征空间

假设我们有一个由多个样例组成的样本集,例如:

  • 用户A:{年龄:29,身高:185,年收入:70,婚姻状况:未婚,状态:逾期}
  • 用户B:{年龄:24,身高:167,年收入:31,婚姻状况:已婚,状态:未逾期}
  • 用户C:{年龄:46,身高:177,年收入:50,婚姻状况:离异,状态:未逾期}

每个用户及其属性对称为一个样本。这些用户及其属性构成了样本集,而“年龄”、“身高”、“年收入”、“婚姻状况”构成了特征空间。在这个例子中,特征空间有4个维度。

此外,还有一个参数空间,由构成预测函数的所有参数的取值组成。在这个例子中,“状态”这个字段代表样本的标签,即需要模型来判断的结果。

空间表征

通过已观察到的样本点,可以表征出样本空间的一部分,但有些特征维度上的取值可能没有被观测到。例如,如果数据集中只有“未婚”和“离异”这两种婚姻状况,那么样本集就不能完整表征所有可能的婚姻状况。

02 模型学习

模型的学习过程,即训练,是指通过输入数据让模型学习到数据的潜在规律。建立模型的本质是从数据分布中抽象出一个决策函数。

决策函数

决策函数是从输入空间X到输出空间Y的映射f:X→Y。

分类与回归

当预测的目标是离散值时,如判断性别或是否逾期,这种任务称为分类。如果是连续值,如预测年龄或未来的还款日期,则称为回归。

二分类与多分类

当任务只有两个取值时,称为二分类任务。评分卡模型是一种典型的二分类任务,用于预测用户是否会逾期。而涉及多个类别的任务称为多分类任务。

监督学习、半监督学习与无监督学习

  • 监督学习:数据集中每个样本都带有标签。
  • 无监督学习:数据集中没有任何标签。
  • 半监督学习:数据集中部分样本带有标签,部分不带标签。

通常情况下,模型效果排序为:监督学习 > 半监督学习 > 无监督学习。

03 模型评估

在模型学习过程中,主要关注两个方面:欠拟合和过拟合。

欠拟合

欠拟合是指模型未能很好地拟合数据,通常是因为模型过于简单,无法捕捉到数据的特征。

过拟合

过拟合是指模型过于复杂,以至于捕捉到了数据中的噪声,导致模型在新数据上的表现不佳。

为了更好地评估模型,通常会将样本集分为训练集和测试集。训练集用于模型训练,测试集用于验证模型的效果。通常认为,如果模型在训练集上表现良好但在测试集上表现不佳,则有较高的过拟合风险。

泛化误差

泛化误差由偏差、方差和噪声三部分组成。偏差衡量模型的期望预测与真实结果之间的差异,方差衡量数据扰动对学习能力的影响,噪声则反映了任务本身的拟合难度。

结论

本文介绍了机器学习的一些基本概念、模型学习的过程以及如何评估模型。这些知识有助于更好地理解和应用机器学习技术。

关于作者

本文由梅子行和毛鑫宇撰写。梅子行是资深风控技术专家和算法专家,毛鑫宇是资深品牌视觉设计师和插画设计师。本文内容源自《智能风控:Python金融风险管理与评分卡建模》一书。

    本文来源:图灵汇
责任编辑: : 天成有我
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
手绘吐血图解概念机器整理基本这里学习
    下一篇