机器学习基础6:三种参数估计方法
作者头像
  • 田川
  • 2020-05-12 10:41:50 6

统计学中存在两种主要的概率解释方法:频率主义和贝叶斯主义。

频率主义:频率主义认为概率是基于样本数据的频率,是一种客观概率。在这种观点下,参数θ被视为未知但固定的值,采用点估计的方式进行估算。最大似然估计(MLE)就是一种常用的频率统计方法。

贝叶斯主义:贝叶斯主义基于先验概率,并通过添加样本数据更新为后验概率,也是一种客观概率。先验概率代表了历史知识,而样本数据作为新证据。贝叶斯主义认为参数θ是未知且随机的,因此采用分布估计的方式。频率主义可以视为贝叶斯主义的一个特殊情况,隐含了特定的先验知识。

本文将介绍频率主义中的最大似然估计、贝叶斯主义中的贝叶斯估计,以及结合两者优点的最大后验估计。

最大似然估计:这是一种基于样本数据的点估计方法。

贝叶斯估计:这种估计方法结合了先验知识和样本数据,提供了参数的分布估计。

最大后验估计:这种方法同样结合了先验知识和样本数据,但最终给出的是参数的点估计。

最大似然估计

最大似然估计是一种统计方法,用于在已知模型但参数未知的情况下,寻找最能解释样本数据的模型参数。具体而言,如果有m个样本X={x1, ..., xm},这些样本由某个概率分布Pdata(x)生成,那么可以通过求解θ的最大似然估计来找到最合适的参数。最大似然估计定义如下:

[ theta{text{MLE}} = argmax{theta} sum{i=1}^{m} log P{text{model}}(x_i; theta) ]

由于直接计算多个概率的乘积可能会导致数值问题,如下溢,我们通常使用对数转换将乘积变为累加,如下:

[ theta{text{MLE}} = argmax{theta} sum{i=1}^{m} log P{text{model}}(x_i; theta) ]

此外,为了简化计算,我们还可以通过除以m来归一化损失函数,如下:

[ theta{text{MLE}} = argmax{theta} frac{1}{m} sum{i=1}^{m} log P{text{model}}(x_i; theta) ]

最大似然估计也可以推广到条件概率估计P(y|x; θ),这是大多数监督学习的基础。当样本独立同分布时,条件最大似然估计可以分解为:

[ theta{text{MLE}} = argmax{theta} sum{i=1}^{m} log P(yi|x_i; theta) ]

最大似然估计可以视为最小化训练数据的经验分布与模型分布之间的差异,这种差异可以用KL散度来衡量:

[ theta{text{MLE}} = argmin{theta} D{text{KL}}(P{text{data}} || P_{text{model}}(cdot; theta)) ]

最小化KL散度实际上等价于最小化交叉熵:

[ theta{text{MLE}} = argmin{theta} H(P{text{data}}, P{text{model}}(cdot; theta)) ]

贝叶斯估计

假设有一组样本数据{X1, ..., Xm},则参数θ的估计如下:[ P(theta|X1,...,Xm) = frac{P(X1,...,Xm|theta)P(theta)}{P(X1,...,Xm)} ] 其中,P(θ)为先验概率,P(X1,...,Xm|θ)为样本似然。通常,我们会选择一个高熵的先验分布P(θ),表示在任何样本数据面前,参数θ都是高度不确定的。通过样本数据,后验分布的熵会逐渐减小,收敛到高可能性的θ值。

与最大似然估计相比,贝叶斯估计有两个显著的区别:首先,最大似然估计是θ的点估计,而贝叶斯估计是θ的分布估计。例如,在观测到m个样本后,下一个样本的预测分布如下:[ P(X{m+1}|X1,...,Xm) = int P(X{m+1}|theta)P(theta|X1,...,Xm)dtheta ] 即使观察到m个样本数据,我们仍然对θ值保持较高的不确定性,这种不确定性直接包含在预测中。频率主义通过评估方差来估计θ的不确定性,而贝叶斯主义通过积分来估计θ的不确定性。其次,贝叶斯主义利用先验知识,使得概率质量密度向先验方向偏移,这通常表现为偏好更简单更光滑的模型。

贝叶斯估计也有一些缺点:首先,很多情况下缺乏先验知识或难以获得先验知识;其次,当训练样本数据有限时,贝叶斯主义通常具有更好的泛化性能,但在样本数据较大时,计算成本较高。

最大后验估计

尽管可以使用贝叶斯统计方法进行参数θ的分布估计,但有时我们仍希望得到θ的单点估计,因为涉及贝叶斯统计的操作通常较为复杂。最大后验估计(MAP)结合了最大似然估计和贝叶斯统计的优点,一方面加入了先验知识,另一方面选择后验分布中概率最大的点进行估计。定义如下:

[ theta{text{MAP}} = argmax{theta} P(theta|x) = argmax_{theta} log P(x|theta) + log P(theta) ]

其中,(log P(x|theta)) 是似然项,(log P(theta)) 是先验分布。与贝叶斯统计一致,最大后验概率利用了先验知识带来的信息优势,这是训练数据中所不具备的。相比于最大似然估计,先验知识有助于减少最大后验点估计的方差,但也会增加偏差。许多正则化方法可以被解释为贝叶斯估计的最大后验估计的近似,损失函数中的附加项正好对应着 (log P(theta))。

    本文来源:图灵汇
责任编辑: : 田川
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
估计机器参数基础方法学习
    下一篇