纸上谈兵——机器学习基本知识
作者头像
  • 杜小含
  • 2020-07-07 18:41:29 0

初识机器学习,你可能有很多疑问?

学习机器学习固然重要,但更重要的是理解其背后的核心概念。训练数据不足怎么办?正负样本分布不均怎么办?如何在众多模型中挑选适合的?如何根据任务特点调整损失函数?这些问题并不是单一模型能解答的,了解机器学习的基础知识和核心思想是解决这些问题的关键。

机器学习的分类

机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习。其中,监督学习应用最为广泛,本文主要讨论的就是它。监督学习是指训练数据带有标签,训练过程中要判断模型的输入和标签是否一致,以此指导或监督学习过程。

机器学习介绍:探索“上帝函数”

1. 机器学习流程简介

首先,让我们总结一下机器学习的基本流程。

2. “上帝”函数的概念

对于机器学习的任务,我们可以想象有一个“上帝函数”G: X→Y或“上帝分布”G(Y|X),它能准确无误地知道每个输入x对应什么输出y。问题是,我们无法得到这个函数,但我们可以通过观察一系列样例数据(x1,y1), (x2,y2), ... (xn, yn)来估计G。

3. 假设空间的重要性

为了估计G,我们必须先假设它是某种函数,比如决策树或神经网络,也可以假设它是某种概率分布,如逻辑回归分布。总之,必须有假设才能进一步学习。假设空间包含了所有可能的函数或分布,模型就是假设空间的一部分。

4. 损失函数的作用

假设空间包含了很多假设,我们需要找到最适合的那一个。衡量合适与否的标准就是损失函数,它度量了模型的预测值和真实值之间的差异。损失函数越小,说明模型越好。为了加速训练过程,人们研究出了各种训练算法,如梯度下降和反向传播。因此,机器学习的训练过程就是在假设空间中不断搜索,寻找满足损失函数的函数。

5. 实测的准确性才是关键

在找到理想的假设后,就可以用来进行预测了。预测才是机器学习的最终目标。即使在训练时误差为0,如果没有良好的预测效果,也不能算成功。

机器学习三要素

模型、损失函数和算法是机器学习的三大要素。有了这三要素,机器学习的过程就基本确定了。

机器学习小贴士

模型

模型实际上是一个函数族,可以用数学语言表示为: [ f_theta : X to Y ] 其中,X和Y是随机变量,分别表示输入和输出,θ是n维参数向量。模型也可以是概率分布族。

损失函数

损失函数衡量预测值与真实值之间的差异,常用的有0-1损失函数、平方损失函数和交叉熵等。

算法

不同的模型通常有不同的训练算法,如梯度下降、反向传播等。训练算法的作用是在假设空间中搜索最佳模型。

与样例相关的常见问题

独立同分布

训练样例和预测用的新数据必须是独立同分布的。否则,预测结果可能会不准确。

样例不足

样例不足会影响模型的学习效果。解决办法包括降低模型复杂度和增加样例数量。迁移学习也是一个有效的手段。

正负样例不平衡

在分类任务中,正负样例分布不平衡会影响模型性能。可以通过调整损失函数来解决这个问题。

特征工程的重要性

特征工程是影响模型效果的重要因素。好的特征可以显著提升模型性能。常见的特征处理方法包括one-hot编码和多维统计。

过拟合与欠拟合

过拟合和欠拟合是机器学习中常见的问题。过拟合指模型过于复杂,容易捕捉噪声;欠拟合则指模型过于简单,不能充分学习数据中的模式。防止过拟合的方法包括正则化和交叉验证。

总结

机器学习的核心在于理解其基本概念和思想,通过调整模型、损失函数和算法来优化模型性能。希望本文能为你提供一些有价值的洞见。

参考资料

  • 统计学习方法,李航
  • 机器学习,Tom Mitchell

如果你有任何问题或建议,请在下方留言。期待你的反馈!

    本文来源:图灵汇
责任编辑: : 杜小含
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
纸上谈兵基本知识机器学习
    下一篇