机器学习综述
作者头像
  • 杨文雯
  • 2020-01-02 16:03:37 4

机器学习的发展历程

机器学习是一门多学科交叉的领域,涵盖概率论、统计学、逼近论、凸分析和算法复杂度理论等多个学科,专注于研究计算机如何模拟或实现人类的学习行为,以获取新知识或技能,进而优化自身的性能。它是人工智能的核心部分,是赋予计算机智能的关键路径。

自20世纪50年代初以来,机器学习已经发展了近70年。从发展历程看,主要经历了以下几个关键阶段:

机器学习的发展阶段

进入21世纪后,随着数据量的增加和计算能力的提升,深度学习开始兴起。

机器学习的分类

通常将机器学习分为四大类:监督学习、非监督学习、半监督学习和强化学习。

监督学习

监督学习通过已知类别的样本调整分类器参数,使其达到预期效果。在这个过程中,会提供反馈,通过反复训练找到训练数据中的模式或规律。当新数据出现时,可以利用这些模式预测结果。监督学习主要用于分类和预测任务,特点是使用标记过的数据集。

非监督学习

非监督学习与监督学习相反,无需对数据进行标记。它旨在从数据中发现隐含的结构,判断哪些数据较为相似。这种方法的目标不是告诉计算机具体的操作步骤,而是让计算机自己学会处理问题。它的优势在于可以使用未标记的数据集。

半监督学习

半监督学习结合了监督学习和非监督学习的优点,既利用标记数据也利用未标记数据进行训练。这种方法不仅能学习属性间的结构关系,还能用于分类和预测。

强化学习

强化学习是一种机器学习的范式,用于描述和解决智能体在环境中通过学习策略以达到回报最大化或实现特定目标的问题。

常用的机器学习模型、损失函数与优化方法

机器学习可以概括为数据+模型+优化方法。模型在这里扮演着至关重要的角色。经典的机器学习模型算法包括线性算法(如线性回归和逻辑回归)、决策树(如ID3、C4.5和CART)、支持向量机(SVM)、朴素贝叶斯算法、k近邻算法(kNN)、聚类算法(如k-Means)等。

在机器学习过程中,有许多损失函数被应用于各种模型,例如0-1损失函数、相对值损失函数、平方损失函数、对数损失函数、指数损失函数和Hinge损失函数。

优化方法中,梯度下降是最常用的方法之一。它通过梯度的反方向更新模型参数,以最小化目标函数。常见的梯度下降方法包括全量梯度下降、随机梯度下降、小批量梯度下降以及引入动量的梯度下降和自适应学习率的Adagrad算法。

机器学习的评估指标

在训练模型时,为了指导模型更好地学习,通常需要使用不同的评估指标,根据应用场景的不同而选择不同的指标。最常用的评估指标包括:

均方误差(MSE)

MSE是真实值与预测值差值的平方的平均值,常用于线性回归的损失函数。

平均绝对误差(MAE)

MAE是相对误差的平均值,可以更好地反映预测值的实际误差情况,适用于回归任务。

均方根误差(RMSE)

RMSE是衡量观测值与真实值之间偏差的一种指标,常用于回归任务。

混淆矩阵

混淆矩阵是用于总结分类模型预测结果的工具,通过真实类别与预测类别的对比进行汇总分析。通过混淆矩阵可以衍生出许多评估分类任务的指标,如真正率(TPR)、假负率(FNR)、假正率(FPR)、真负率(TNR)、准确率(ACC)、精准率(Precision)和召回率(Recall),以及F1-Score。

ROC曲线和AUC

ROC曲线是以假正率(FPR)为横坐标,真正率(TPR)为纵坐标的曲线,用于评估分类器的性能。AUC则是ROC曲线下的面积,用于衡量分类器的泛化能力。AUC值越接近1,说明分类器性能越好。

    本文来源:图灵汇
责任编辑: : 杨文雯
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
综述机器学习
    下一篇