现阶段的机器学习依赖于概率和统计理论。概率论用于评估事件发生的可能性,而统计学则利用样本数据来估计模型参数。由于无法获取所有数据,我们通常依靠有限的样本数据来推断整体模型。参数估计方法包括点估计、分布估计和区间估计,其中点估计又包含最大似然估计、最大后验估计和矩估计等。
本文将重点介绍参数估计中的最大似然估计方法。
最大似然估计是一种统计方法,用于在已知模型但未知参数的情况下,寻找最有可能生成给定样本数据的模型参数。假设我们有m个独立且由Pdata(x)分布生成的样本X={x^1, ..., x^m},以及由θ参数化的Pmodel(x; θ)分布。最大似然估计的目标是找到使Pmodel(x; θ)最接近Pdata(x)的θ值。具体来说,最大似然估计定义如下:
[ hat{theta} = argmax{theta} prod{i=1}^{m} P_{model}(x^i; theta) ]
为了简化计算,通常使用对数函数将连乘转换为连加:
[ hat{theta} = argmax{theta} sum{i=1}^{m} log P_{model}(x^i; theta) ]
由于缩放不影响argmax的结果,我们可以进一步简化为:
[ hat{theta} = argmax{theta} frac{1}{m} sum{i=1}^{m} log P_{model}(x^i; theta) ]
最大似然估计可以视为最小化训练集的经验分布与模型分布之间的差异。这种差异可以通过Kullback-Leibler散度(简称KL散度)来衡量。KL散度公式如下:
[ D{KL}(P{data} | P{model}) = mathbb{E}{x sim P{data}}[log P{data}(x)] - mathbb{E}{x sim P{model}}[log P_{model}(x)] ]
在优化过程中,我们只需关注右侧的交叉熵部分,因为左侧的训练数据分布是固定的。对于条件概率P(y|x; θ),条件最大似然估计可以分解为独立同分布样本的简单形式。
在线性回归中,我们通常采用最小化均方误差作为损失函数。这种选择源于最大似然估计的推导。假设线性回归模型拟合的是正态分布p(y|x),并且样本是独立同分布的,那么最大化似然函数等价于最小化均方误差。均方误差的最小化可以直观地解释为拟合数据的最佳直线。
在某些条件下,最大似然估计具备一致性,即随着训练样本数量增加,最大似然估计的参数将逐渐收敛至真实值。这些条件包括:真实分布Pdata必须位于模型族Pmodel(θ)内;真实分布Pdata应恰好对应唯一的一个θ值。对于参数估计问题,我们的目标是找到最佳的参数值;而对于非参数估计问题,我们的目标则是估计函数值。最大似然估计通过最小化均方误差期望来衡量估计参数与真实参数之间的差距。随着训练样本数量的增加,最大似然估计的均方误差期望逐渐减小。在面对过拟合问题时,可以通过正则化技术(如权重衰减)来控制模型复杂度,从而获得更好的最大似然估计效果。