本文主要介绍机器学习的基础知识,涵盖约30个专业术语的解释,以及基础模型的算法原理和建模过程。
在深入探讨机器学习理论之前,我们先介绍一些最基本的概念。
特征指的是具体事物的属性描述,通常由一组属性向量表示。第j个记录xj的属性向量可以表示为:xj=(xj(1),xj(2),…,xj(i),…,xj(n)),其中每个xj(i)代表一个特征维度上的取值。
标记,又称样本标签,用于描述事物的特定属性。标记值是标记可能的取值,例如在二分类问题中,取值通常为0和1。
标记空间,也称为输入空间,包含所有标记的集合,记为Y。
样例,也称样本,是指具有对应标记的记录,表示为(记录,标记)对。例如,第j个样例可以表示为:(xj,yj)。
假设我们有一个由多个样例组成的样本集,例如:
每个用户及其属性对称为一个样本。这些用户及其属性构成了样本集,而“年龄”、“身高”、“年收入”、“婚姻状况”构成了特征空间。在这个例子中,特征空间有4个维度。
此外,还有一个参数空间,由构成预测函数的所有参数的取值组成。在这个例子中,“状态”这个字段代表样本的标签,即需要模型来判断的结果。
通过已观察到的样本点,可以表征出样本空间的一部分,但有些特征维度上的取值可能没有被观测到。例如,如果数据集中只有“未婚”和“离异”这两种婚姻状况,那么样本集就不能完整表征所有可能的婚姻状况。
模型的学习过程,即训练,是指通过输入数据让模型学习到数据的潜在规律。建立模型的本质是从数据分布中抽象出一个决策函数。
决策函数是从输入空间X到输出空间Y的映射f:X→Y。
当预测的目标是离散值时,如判断性别或是否逾期,这种任务称为分类。如果是连续值,如预测年龄或未来的还款日期,则称为回归。
当任务只有两个取值时,称为二分类任务。评分卡模型是一种典型的二分类任务,用于预测用户是否会逾期。而涉及多个类别的任务称为多分类任务。
通常情况下,模型效果排序为:监督学习 > 半监督学习 > 无监督学习。
在模型学习过程中,主要关注两个方面:欠拟合和过拟合。
欠拟合是指模型未能很好地拟合数据,通常是因为模型过于简单,无法捕捉到数据的特征。
过拟合是指模型过于复杂,以至于捕捉到了数据中的噪声,导致模型在新数据上的表现不佳。
为了更好地评估模型,通常会将样本集分为训练集和测试集。训练集用于模型训练,测试集用于验证模型的效果。通常认为,如果模型在训练集上表现良好但在测试集上表现不佳,则有较高的过拟合风险。
泛化误差由偏差、方差和噪声三部分组成。偏差衡量模型的期望预测与真实结果之间的差异,方差衡量数据扰动对学习能力的影响,噪声则反映了任务本身的拟合难度。
本文介绍了机器学习的一些基本概念、模型学习的过程以及如何评估模型。这些知识有助于更好地理解和应用机器学习技术。
本文由梅子行和毛鑫宇撰写。梅子行是资深风控技术专家和算法专家,毛鑫宇是资深品牌视觉设计师和插画设计师。本文内容源自《智能风控:Python金融风险管理与评分卡建模》一书。