假设我们有一组包含N个样本的数据集,每个样本都是一个p维的数据。这些数据点 ( x_i ) 是相互独立且同分布的,它们符合高维高斯分布。
我们假定参数 (theta) 是固定不变的,那么我们可以通过最大似然估计来求解 (theta)。
首先考虑最简单的场景,即每个数据都是一维的情况:
接下来,我们分别求解两个参数的最大值:
以下是两个非常重要的概念:有偏估计和无偏估计。
我们预计样本的均值就是总体的均值,但样本的方差会比真实误差小一些。
接下来,我们探讨高维分布的情况:
其中 (Sigma) 是正定或半正定矩阵(关于正定矩阵和半正定矩阵的简要介绍)。
我们称之为马氏距离,其具体含义如下:
当 (p = 2) 维,协方差矩阵为单位矩阵时:
此时,马氏距离就是欧氏距离。接下来详细解释马氏距离的意义:
然后我们定义:
其物理意义是向量 (x) 在 (u_i) 方向上投影的结果:
以二维空间为例,解释以下公式的含义:
我们知道,如果 (p(x)) 服从高斯分布 (N(u, Sigma)),并且 (p(x)) 在 0 到 1 之间,那么对于不同 (p(x)) 的取值,我们都可以计算出相应的 (Delta),这相当于确定了一个不同的椭圆大小。
接下来讨论高斯分布的一些限制: - 当维度 (d) 降低时,协方差矩阵的参数数量以平方的速度增加,因此需要简化协方差矩阵,使其成为对角矩阵。进一步,可以将对角矩阵的元素设置为相等,以实现各向同性。 - 高斯函数是一个单峰分布,无法很好地拟合多峰分布。引入隐变量可以解决这一问题。
最后,我们介绍一下条件高斯分布:
求解边缘概率和条件概率:
这里有一个定理:
其中 (x) 是 (p) 维,(A) 是 (q times p) 矩阵,(B) 是 (q) 维,则 (y) 是 (q) 维矩阵,并且也服从高斯分布。
由此定理可以得出:
- 边缘分布:
- 条件分布:
最后,我们讨论如何根据已知的边缘概率和条件分布求解联合分布: