最小二乘法是一种广泛应用于数据分析和机器学习的方法,其核心思想是通过平方误差来定义损失函数,从而找到最佳拟合模型。
最小二乘法可以通过向量表示和求导来求解。具体来说,我们需要计算损失函数的梯度,并将其设置为零来求得最优解。在这种情况下,有时需要使用奇异值分解(SVD)来解决非满秩样本的问题。
假设我们的实验样本位于一个由满秩矩阵张成的高维空间中。模型可以表示为超平面上单位向量的线性组合。最小二乘法的目标是使预测值与实际值之间的差距尽可能小,且该差距与超平面正交。
在高斯噪声条件下,最大似然估计(MLE)的结果与最小二乘法的结果相同。这是因为高斯分布的概率密度函数与最小二乘法的损失函数形式相似。
如果假设权重先验为高斯分布,那么最大后验概率估计(MAP)同样可以得到与最小二乘法相似的结果。此外,使用拉普拉斯分布作为先验,则会得到类似于L1正则化的效果。
在实际应用中,当样本数量较少时,容易出现过拟合现象。为了解决这个问题,可以采用以下几种方法:
常见的正则化方法包括L1正则化(Lasso)和L2正则化(Ridge)。
L1正则化有助于产生稀疏解,即某些特征的权重可能为零。这是因为L1正则化的梯度在零附近具有不同的左右导数,从而更容易收敛到零。
L2正则化不仅可以使模型选择较少的参数,还可以应对不可逆的情况。它通过引入2范数来惩罚模型复杂度,从而实现正则化效果。
线性回归模型虽然简单,但包含了许多重要的概念。最小二乘法提供了闭式解,而当噪声为高斯分布时,最大似然估计与最小二乘法等价。引入正则化项后,最小二乘误差加上L2正则项等价于高斯噪声先验下的最大后验概率估计,而L1正则项则等价于拉普拉斯噪声先验。
传统机器学习方法大多借鉴了线性回归的思想。例如,可以通过特征变换、非线性激活函数以及多次变换等方式改进线性模型的表现。此外,线性回归模型可以在不同区域引入不同的线性或非线性关系,如线性样条回归和决策树模型。最后,通过数据预处理(如PCA)也可以提升模型的学习效果。