机器学习基础-三-线性分类
作者头像
  • 首席生活家
  • 2019-12-12 10:09:20 2

统计机器学习中最基础的模型之一是线性回归。线性回归具备三个显著的特点:线性组合、全局应用和数据不变形。这三个特点赋予了线性回归简洁的数学形式和清晰的解释性,但也限制了它的表达能力。

为了更好地解决实际问题,后续的机器学习方法通常会突破线性回归的这三个特点。例如,线性分类模型就突破了线性的限制。简单来说,线性回归通过激活函数将输入从实数范围映射到{0,1},从而实现分类功能。根据输入的具体范围,线性回归可以进一步细分为“硬输入”和“软输入”两种类型。

在统计机器学习中,一个核心任务是优化问题。这一过程通常包括三个步骤:建立模型、定义损失函数和选择优化算法。以感知机为例,它是典型的“硬输入”模型。感知机的模型定义和损失函数具有特定的形式,其中损失函数是一个不可导的函数,在分类错误时才产生值。

对于不同的情况,我们需要对损失函数进行适当的调整。当样本被正确分类时,损失函数的贡献为零;而当分类错误时,我们的目标是尽量缩小yiwtxi的值。因此,可以将损失函数重新定义为可导的形式,进而采用诸如随机梯度下降(SGD)等优化算法。

接下来讨论的是另一种“硬输入”模型——Fisher判别分析。Fisher判别分析的基本思想是将所有样本投影到一维空间,以达到最佳分类效果。理想情况下,这种投影应使不同类别的样本尽可能分离,同时使同类样本尽可能集中。基于这一思想,Fisher判别分析的核心在于最大化类间距离并最小化类内距离。

为了实现这一目标,需要计算最佳的投影方向。Fisher判别分析通过定义类间距离和类内距离来实现这一目标,并通过优化目标函数来找到最优解。

最后,我们来看“软输入”模型中的两种典型代表:逻辑回归和高斯判别分析。逻辑回归通过激活函数将实数映射到0-1之间,定义条件概率P(y|x),并通过最大似然估计来求解参数。相比之下,高斯判别分析同样采用最大似然作为目标函数,但在求解过程中采用了不同的方法,如分别求导。

通过以上介绍可以看出,各种机器学习方法各有侧重,但它们都致力于寻找更好的方法来解决实际问题,不断突破线性回归的局限。

    本文来源:图灵汇
责任编辑: : 首席生活家
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
线性机器基础学习分类
    下一篇