机器学习中的特征选择:一文读懂几个重要的统计学概念
作者头像
  • 海滨之花
  • 2020-05-13 10:32:30 3

本文节选自我的《33天搞定机器学习》。在学习过程中,很多人容易陷入知识的陷阱,尤其是在机器学习领域。虽然确实需要具备一定的数学、概率、统计、线性代数和凸优化基础,但并不意味着要全面掌握这些领域的所有知识点才能继续学习。打牢基础固然重要,但这并不意味着一定要经历漫长而艰难的过程。

学习的关键在于方法。一些人能够快速学习,因为他们掌握了有效的学习方法。对于机器学习,我认为实践中学习更为有效。在实际操作中,遇到缺失的知识点再回头补充也不迟。这样不仅效率更高,还能加深理解和掌握。

成绩引出

拿到数据后,需要进行数据预处理,但这还不足以直接用于训练模型。还需要进行特征选择,这有以下几个好处:

  1. 避免维度灾难
  2. 降低学习难度
  3. 减少过拟合
  4. 加深对特征及其值的理解

特征选择的常见方法

特征选择主要分为以下三种:

过滤法(Filter):先对数据集进行特征选择,然后训练学习器。特征选择过程与后续学习器无关。

包装法(Wrapper):根据目标函数(通常是预测效果评分),每次选择或排除若干特征。

嵌入法(Embedding):先使用机器学习模型进行训练,得到各个特征的权重系数,根据系数从大到小选择特征。

其中,过滤法最为简单,易于理解和执行。

过滤法的核心思路

过滤法的核心思路是观察自变量和因变量之间的关联性和相关性,并设定阈值,优先选择与因变量相关性高的特征。

主要方法

分类问题:卡方检验(chi2)、F检验(fclassif)、互信息(mutualinfo_classif)

回归问题:相关系数(fregression)、互信息(mutualinfo_regression)

卡方检验、F检验、互信息、相关系数、信息系数

这些统计学概念在sklearn特征选择中被广泛应用。为了更好地理解它们,参考了sklearn文档。

卡方检验

卡方检验用来衡量样本的实际观测值与理论推断值之间的偏离程度。卡方值越大,表示两者偏离越大;反之,偏离越小。如果两者完全一致,卡方值为0。

卡方值计算公式: [ chi^2 = sum frac{(Oi - Ei)^2}{Ei} ] 其中,( Oi ) 表示实际值,( E_i ) 表示理论值。

F检验

F检验和方差分析(ANOVA)本质上是一回事,主要用于检验两个或多个样本均值的显著性差异。F值越大,表明不同总体下的均值差异越显著。因此,可以根据F值来判断特征对预测类别的重要性。

互信息(mutualinfoclassif/regression)

互信息是衡量变量间相互依赖性的指标。不同于相关系数,互信息不局限于实值随机变量,适用于更广泛的场景。两个离散随机变量X和Y的互信息可以定义为: [ I(X;Y) = sum{x in X} sum{y in Y} p(x,y) log left( frac{p(x,y)}{p(x)p(y)} right) ]

相关系数(f_regression)

相关系数是一种衡量变量间线性相关性的简单方法。其取值范围为[-1, 1],-1表示完全负相关,+1表示完全正相关,0表示无相关性。相关系数越高,表示特征与因变量之间的相关性越强。

P值(P-value)

P值是指在零假设成立的前提下,样本结果出现的概率。如果P值很小,说明在零假设成立的情况下,样本结果出现的概率极低,从而质疑零假设的真实性。通常情况下,当P值小于显著性水平(如0.05)时,可以拒绝零假设。

希望这些内容对你有所帮助。

    本文来源:图灵汇
责任编辑: : 海滨之花
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
一文统计学特征机器概念重要选择学习
    下一篇