机器学习——机器学习算法优缺陷综述

李雪涵
2020-07-15 08:03:34 6

+关注

正则化算法

正则化算法是针对模型复杂度的一种惩罚方法，旨在选择相对简单且具有良好泛化能力的模型。

例子：

岭回归
LASSO（最小绝对收缩与选择算子）
GLASSO
弹性网络
最小角回归

优点：

能有效减少过拟合现象

缺陷：

过度惩罚可能导致欠拟合
参数调优较为复杂

集成算法

集成算法通过组合多个较弱的模型来提升整体预测能力。常见的集成技术包括：

Boosting
Bagging（自助聚集）
AdaBoost
Stacking（堆叠）
梯度提升机（GBM）
梯度提升回归树（GBRT）
随机森林

优点：

集成算法在预测方面表现出色，通常优于单一模型

缺陷：

需要较多的维护工作

决策树算法

决策树算法利用树形结构作为预测模型，将观测结果映射至目标值。

例子：

CART（分类与回归树）
ID3（迭代二分器）
C4.5和C5.0

优点：

易于理解和解释
不需要严格的参数假设

缺陷：

容易过拟合
训练时间较长

回归算法

回归算法用于估计两个变量之间的关系，广泛应用于建模和分析多个变量。

例子：

普通最小二乘回归
线性回归
逻辑回归
逐步回归
MARS（多元自适应回归样条）
LOESS（局部估计散点平滑）

优点：

应用广泛，操作简便

缺陷：

对异常值敏感
需要满足严格的假设条件

人工神经网络

人工神经网络是一种受生物神经网络启发的算法模型，常用于回归和分类任务。

例子：

感知器
反向传播
Hopfield网络
RBFN（径向基函数网络）

优点：

在语音识别、图像处理等领域表现优异
能快速适应新任务

缺陷：

需要大量数据训练
训练过程耗时
结构复杂，难以解释

深度学习

深度学习是人工神经网络的一个分支，得益于现代硬件的发展，目前主要集中在构建更大、更复杂的神经网络。

例子：

DBM（深度玻耳兹曼机）
DBN（深度信念网络）
CNN（卷积神经网络）
自编码器

优点/缺点：

见神经网络

支持向量机

支持向量机是一种非概率二进制线性分类器，通过寻找一个最大间隔超平面来进行分类。

优点：

在非线性问题上表现良好

缺陷：

训练过程复杂
解释性较差

降维算法

降维算法旨在通过减少数据维度来简化数据结构，常用于可视化高维数据或简化后续数据分析。

例子：

PCA（主成分分析）
PCR（主成分回归）
PLSR（偏最小二乘回归）
Sammon映射
MDS（多维尺度变换）
投影寻踪
LDA（线性判别分析）
MDA（混合判别分析）
QDA（二次判别分析）
FDA（灵活判别分析）

优点：

能处理大规模数据集
不需要严格的数据假设

缺陷：

对非线性数据处理效果不佳
结果难以理解

聚类算法

聚类算法通过将数据分为若干组来实现数据分类。

例子：

K-均值
k-Medians算法
EM算法
分层聚类

优点：

使数据更具意义

缺陷：

结果难以解释
对异常数据组处理效果不佳

基于实例的算法

基于实例的算法是一种通过比较新实例与已知实例来进行学习的算法。

例子：

kNN（最近邻）
LVQ（学习向量量化）
SOM（自组织映射）
LWL（局部加权学习）

优点：

算法简单
结果易于理解

缺陷：

占用大量内存
计算成本高
不适用于高维特征空间

贝叶斯算法

贝叶斯算法利用贝叶斯定理来解决分类和回归问题。

例子：

朴素贝叶斯
高斯朴素贝叶斯
多项式朴素贝叶斯
AODE（平均一依赖估计器）
BBN（贝叶斯信念网络）
BN（贝叶斯网络）

优点：

训练速度快
表现良好

缺陷：

输入变量相关时可能出现问题

关联规则学习算法

关联规则学习算法用于挖掘数据中的变量间的关系。

例子：

Apriori算法
Eclat算法
FP-growth

图模型

图模型是一种概率模型，通过图来表示变量间的条件依赖关系。

例子：

贝叶斯网络
马尔可夫随机场
链图
祖先图

优点：

模型清晰，易于理解

缺陷：

确定依赖关系的拓扑结构较为困难

图灵汇

责任编辑：：李雪涵

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

机器学习算法综述缺陷

zhou80019

2020-07-15

目录