数据发掘入门指南
作者头像
  • 2020-07-19 15:56:50 2

数据挖掘基础知识概述

本文旨在系统地介绍数据挖掘的基础概念,帮助读者了解并提升在实际场景中的数据分析、特征工程、模型训练和模型融合等技能。通过理论与实践相结合的方式,本文将引导读者逐步掌握数据挖掘的核心知识。

数据分析

数据分析是探索和理解数据内在结构和规律的重要手段。其中,探索性数据分析(EDA)是一种常用的数据分析方法,它通过作图、制表、拟合方程等手段,在尽量少的假设下研究数据。

  • 常用第三方库

    • 数据科学库:pandas用于数据分组、过滤和组合;numpy用于处理大型多维数组和矩阵;scipy用于处理线性代数、概率论和积分计算等任务。
    • 数据可视化库:matplotlib用于构建各种图表;seaborn提供丰富的可视化图库,包括时间序列图、联合图和小提琴图等复杂类型。
  • 常用函数

    • 数据简要观察:head()函数用于检查数据读取是否准确,通常读取前五行数据;shape属性用于获取数据集的维度。
    • 数据概览:describe()函数用于包含每列的统计量,如个数、平均值、方差、最小值、中位数和最大值;info()函数用于了解数据每列的数据类型,判断是否存在特殊符号异常。
    • 数据检测
      • 缺失值检测:通过查看每列的缺失值情况,并使用sort_values()函数将数据集按某个字段排序,可以直观地查看数据集的分布。
      • 异常值检测:常用的方法包括3σ原则(拉依达准则)和箱线图。3σ原则假设数据服从正态分布,而箱线图则适用于任意分布的数据。
    • 预测分布
      • 总体分布概况:许多模型假设数据服从正态分布。当数据不服从正态分布时,可以使用线性变化(z-scores)、Boxcox变换和Yeo-Johnson变换等方法进行转换。
      • 查看偏度和峰度:偏度衡量数据分布的不对称性,峰度则衡量数据分布的陡峭程度。
    • 预测值频率
      • 当预测值出现频率较低时,可以考虑将其视为异常值处理或删除。为了改善数据分布,可以使用对数变换等方法。

数据清洗

数据和特征决定了机器学习模型的下限,而模型和算法只是尽力接近这个下限。因此,数据清洗是机器学习项目中不可或缺的步骤,它通过统计学、数据挖掘或预定义的规则将脏数据转化为高质量的数据。数据清洗主要包括缺失值处理、异常值处理、数据分桶和特征归一化/标准化等流程。

  • 缺失值处理
    • 可以选择不处理,尤其是对于支持缺失值的模型;也可以选择删除缺失值过多的列;还可以使用插值法(如均值、中位数、众数等)或数据分桶法进行处理。
  • 异常值处理
    • 常用方法包括BOX-COX变换、箱线图分析和长尾截断等。这些方法主要用于处理数值型数据。
  • 数据分桶
    • 数据分桶可以加速稀疏向量的内积运算,提高计算效率,增强模型对异常值的鲁棒性,引入非线性,提升模型表达能力。常见的分桶方法包括等频分桶、等距分桶、Best-KS分桶和卡方分桶等。
  • 数据转换
    • 数据转换包括归一化、标准化、对数变换、数据类型转换、独热编码、标签编码等方法。

特征工程

特征工程是指将原始数据转换为模型训练所需的数据的过程,其目的是获取更好的训练数据特征。良好的特征工程不仅能提升模型性能,还能在简单的模型上取得不错的效果。

  • 特征构造
    • 在构造特征时需要考虑数值特征、类别特征和时间特征。
  • 特征选择
    • 特征选择有两个主要功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合;增强对特征和特征值之间的理解。
    • 特征选择方法包括过滤法、包装法和嵌入法。
  • 降维
    • 高维数据会增加计算负担和模型复杂度,但盲目降维可能会丢失关键信息。主成分分析(PCA)是一种常用的降维方法,它可以减少特征数量,同时尽量保留原始数据的信息。

模型训练与调参

模型训练和参数调整是机器学习项目中的关键步骤。模型的选择决定了结果的下限,而如何更好地逼近这个下限则取决于模型的调参过程。

  • 回归分析
    • 回归分析是一种统计方法,旨在了解变量间的关系,并建立数学模型。
  • 长尾分布
    • 长尾分布会导致采样和估值不准确,因为尾部占了很大比例,且人们对尾部数据的理解较少。
  • 欠拟合与过拟合
    • 欠拟合是指模型在训练集和验证集上的表现都很差;过拟合则是指模型在训练集上的表现很好,但在测试集上的表现很差。
    • 过拟合的原因可能包括模型过于复杂、训练数据不足或训练数据与测试数据偏差较大。
  • 正则化
    • 正则化通过在损失函数中添加惩罚项来防止过拟合,常见的正则化方法包括L1正则化和L2正则化。
  • 调参方法
    • 常见的调参方法包括贪心调参、网格搜索调参和贝叶斯调参。这些方法各有优缺点,可根据实际情况选择合适的方法。

模型融合

模型融合是提升机器学习性能的有效方法,广泛应用于各种机器学习竞赛中。模型融合可以通过对多个模型的结果进行平均、投票或堆叠等方法实现。

  • 简单平均法
    • Averaging方法通过对多个模型预测结果进行平均来得到最终结果。
  • 加权平均法
    • 加权平均法是平均法的扩展,通过为不同模型分配不同的权重来反映模型的重要性。
  • 投票法
    • 投票法包括硬投票和软投票。硬投票直接投票,软投票则允许设置权重。
  • 堆叠法(Stacking)
    • Stacking方法是将多个基学习器的预测结果作为新特征,训练一个元学习器。
  • 混合法(Blending)
    • Blending方法类似于Stacking,但只使用训练集的一部分数据进行预测,然后将预测结果与原始特征结合,用于训练元学习器。
  • Bagging
    • Bagging方法通过有放回抽样产生多个子集,训练多个弱模型,并通过投票或平均等方式得到最终预测结果。
  • Boosting
    • Boosting方法通过序列化训练多个模型,每个模型都试图纠正前一个模型的错误,最终通过加权结合得到最终模型。

本文通过系统地介绍数据挖掘的基础知识,帮助读者理解和掌握数据挖掘的核心概念和技术。希望读者能够将这些知识应用到实际项目中,提升数据分析和建模的能力。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
入门指南发掘数据
    下一篇