搞机器学习必知必会的关键点
作者头像
  • 花生壳每日谈
  • 2019-09-29 09:29:22 3

大家好,今天我们将分享一些机器学习领域中的重要知识点。这些知识虽然基础,但对于理解和应用机器学习至关重要。

目录

  • 一、基础知识介绍
  • 二、最小二乘法
  • 三、梯度下降及其应用
  • 四、逻辑回归案例分析

基础知识介绍

对于初学者来说,机器学习中的一些复杂概念可能会让人感到困惑,从而失去继续学习的动力。例如最大似然估计、对数似然、最小二乘法、高斯分布以及梯度下降等。如果不完全理解这些概念,可能会影响你后续的学习进展。

接下来,我将解释一些常见的问题,这些问题也是面试中经常被问到的。

  • 为什么在模型分类预测时要使用极大似然函数来估计参数?

在极大似然估计中,我们选择一个参数w,使得在该参数下,模型预测的结果尽可能接近实际结果。似然函数越大,表示预测值与真实值越接近的概率越高,因此我们需要找到一个最大化似然函数的参数。

  • 为什么需要对似然函数进行对数化处理?

对似然函数进行对数化处理可以将乘法转换为加法,使计算过程更加简单。

  • 为什么需要引入最小二乘法?

最小二乘法是为了简化似然函数的计算过程。通过对数化处理后,我们需要最小化一个二次项,这就是最小二乘法的核心思想。

最小二乘法

最小二乘法的目标是使预测值与真实值之间的差距最小。在具体实现中,有两种主要的方法:一种是针对特定模型(如线性回归)直接求解,另一种是在一般情况下通过梯度下降来求解。

梯度下降

梯度下降是一种通过不断迭代找到最小值的方法。通过逐步调整参数,最终找到最小二乘法的最小值,从而最大化似然函数,使预测值与真实值更加接近。

总结:梯度下降通过不断迭代找到最小的梯度值,在这一点上,最小二乘法取得最小值,似然函数取得最大值,模型的预测值与真实值接近的概率也最大。

梯度下降主要有三种类型: - 全批量梯度下降:所有样本都参与迭代,容易得到最优解,但速度较慢。 - 随机梯度下降:每次只选取一个样本参与迭代,速度快,但不一定收敛。 - 小批量梯度下降:每次选取一批样本参与迭代,既保证了速度又保证了收敛性,是最常用的方法。

在使用梯度下降时需要注意以下几点: - 学习率对实验结果影响很大,最好从小一点开始设置。 - 在减小学习率的同时增加迭代次数,以优化参数。 - 在批量梯度下降中,选择mini-batch大小为2的幂次(如16、32、64)更为合适。

逻辑回归案例分析

我们通过逻辑回归的例子展示了不同梯度下降方法的效果。发现学习率越小,迭代次数越多,损失函数的收敛效果通常越好。此外,如果能提前对数据进行预处理,实验效果也会更好。

  • 基于随机样本的迭代训练

    • 迭代次数阈值为15000,学习率为0.000002,样本每次选取1个。收敛效果一般。
  • 基于小批量迭代次数策略的训练

    • mini-batch为16,迭代次数阈值为15000,学习率为0.001。实验波动较大,不易收敛。
  • 基于数据预处理的训练

    • 数据预处理后再进行迭代训练,迭代次数为5000,学习率为0.01。发现经过数据预处理,收敛效果显著提升。
  • 基于数据预处理的梯度下降策略

    • mini-batch为16,梯度阈值为0.002,学习率为0.01。实验结果表明,这种情况下损失函数的收敛效果最佳。

综上所述,为了优化机器学习模型的性能,建议首先对原始数据进行标准化处理,其次采用低学习率、高迭代次数的优化策略。

好了,今天的分享就到这里,还有很多值得探讨的知识点,有兴趣的朋友可以查阅相关文献进一步了解。感谢大家的关注和支持!

    本文来源:图灵汇
责任编辑: : 花生壳每日谈
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
关键点机器学习
    下一篇