在之前的文章中,我们探讨了标量对矩阵的求导。在机器学习和深度学习领域,损失函数总是标量值,因此本文将详细讲解如何通过简单的线性回归算法来实现对矩阵参数的求导。如果你还没有阅读前一篇文章,建议先浏览一下,因为这将有助于你更好地理解微分工具和迹(trace)工具的概念。
在线性回归算法中,x 是一个 m×n 的矩阵,表示有 m 个样本,每个样本具有 n 个特征;w 是一个 n×1 的向量,y 是一个 m×1 的向量,表示 m 个样本的输出。
如图所示,线性回归的推导过程如下:
首先,a 转变为 d 的步骤利用了向量模平方转换为向量与自身的内积。接着,c 到 d 的步骤应用了公式 d(AB) = dA·B + A·dB。随后,d 到 e 的步骤将 (Xw - y)^T 变换为 (Xdw)^T。通过这一系列变换,我们得到了 h,再结合向量 u^T·v = v^T·u 的性质,最终得出 o 并将其设为 0,从而得到所需的 p。这就是线性回归中求解矩阵偏导数的具体方法。