机器学习所需的一切概率基础

颜如玉
2020-05-13 10:48:53 4

机器学习的核心在于预测，无论是预测具有多种功能的房屋价格，还是基于单细胞测序判断肿瘤是否为恶性，这些预测都基于从数据中发现的相关性，而非绝对确定的结果。

因此，我们可以认为机器学习是在给定一定输入或已知相关性的情况下，预测出最有可能的结果（类似于条件概率P(x|y)）。这需要对概率论有深刻的理解，尽管许多使用机器学习的人只将其视作“黑盒”工具（他们并不关心模型如何生成预测，只关注预测本身），但也有人重视理解模型的工作原理，以便更好地掌握研究过程的机制。

机器学习中的许多“学习”过程实际上源自概率和概率分布的概念，因此理解这些数学概念有助于深入理解机器学习。

接下来，我会简要介绍一些基础的概率知识——如果您已经熟悉条件概率和高斯分布的基本概念，可以直接跳过这部分。

假设您正在乘飞机，试图预测飞机到达目的地的时间。首先，您需要识别影响这一时间的因素，如湍流、空中交通、雷暴等。这些都是模型系统的固有随机因素。此外，还有因观测不完全而带来的不确定性，比如难以预测未来的空中交通流量。最后，还有模型本身的局限性，即可能遗漏了某些重要变量。

每个这样的变量都可以由一个随机变量表示，这些变量可以有不同的值，每个值都有各自的发生概率。概率密度函数和概率质量函数分别适用于连续和离散的情况。

例如，如果X是一个表示特定量湍流的随机变量，那么P(X=x)就是随机变量X取某个特定值的概率。

接下来，我们讨论概率分布。高斯分布（或正态分布）是最常用的一种分布，用于近似其他分布。高斯分布可以用以下公式表示：

[ f(x) = frac{1}{sigma sqrt{2pi}} e^{-frac{(x-mu)^2}{2sigma^2}} ]

其中，σ代表总体标准偏差，μ代表均值。

想象一下，我们想要绘制两个变量的联合分布。事情会变得复杂，因为二维高斯分布涉及更多的变量。这里不仅需要理解单个变量的标准偏差，还需要考虑变量间的相互关系。为此，我们使用协方差矩阵来表示这种关系。

协方差矩阵中的元素表示两个随机变量间的关系，通过以下公式计算：

[ text{Cov}(X,Y) = E[(X - muX)(Y - muY)] ]

拉普拉斯分布则是一种具有尖锐峰顶的分布，与高斯分布的平滑峰顶形成对比。拉普拉斯分布也被称为双指数分布，其公式为：

[ f(x|mu,b) = frac{1}{2b} e^{-frac{|x-mu|}{b}} ]

信息论关注的是在给定一组值和概率的情况下，能够捕捉多少信息。例如，如果您被告知明天会呼吸，这几乎不会引起惊讶，因为您存活的可能性非常高。然而，如果被告知夏天会下雪，这条信息则具有极高的信息量。

信息量可以通过以下公式计算：

[ I(x) = -log(P(x)) ]

在机器学习中，信息的重要性体现在评估模型性能时。例如，当我们输入一个概率分布并得到另一个分布时，可以通过比较两个分布的信息量来衡量模型的学习效果。这通常通过Kullback-Leibler散度（KL散度）来实现。

结构化概率模型（如贝叶斯网络）用于表示多个变量及其条件概率之间的相互作用。这些模型通常由节点和边构成，其中节点代表变量，边表示条件关系。例如，在一个简单的贝叶斯网络中，节点a影响节点b和c，b又影响c。

通过这些模型，我们可以计算所有变量组合的概率，具体公式如下：

[ P(a, b, c) = P(a)P(b|a)P(c|a,b) ]

无向模型则不需要有向边，而是通过无向连接表示变量间的依赖关系。

这就是机器学习中概率论的基础，希望这对您有所帮助！

图灵汇

责任编辑：：颜如玉

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

概率机器一切基础学习

朱贤瑶

2020-05-13

谷歌发布AI Explorables 进一步降低机器学习的参与门槛