机器学习的核心在于预测,无论是预测具有多种功能的房屋价格,还是基于单细胞测序判断肿瘤是否为恶性,这些预测都基于从数据中发现的相关性,而非绝对确定的结果。
因此,我们可以认为机器学习是在给定一定输入或已知相关性的情况下,预测出最有可能的结果(类似于条件概率P(x|y))。这需要对概率论有深刻的理解,尽管许多使用机器学习的人只将其视作“黑盒”工具(他们并不关心模型如何生成预测,只关注预测本身),但也有人重视理解模型的工作原理,以便更好地掌握研究过程的机制。
机器学习中的许多“学习”过程实际上源自概率和概率分布的概念,因此理解这些数学概念有助于深入理解机器学习。
接下来,我会简要介绍一些基础的概率知识——如果您已经熟悉条件概率和高斯分布的基本概念,可以直接跳过这部分。
假设您正在乘飞机,试图预测飞机到达目的地的时间。首先,您需要识别影响这一时间的因素,如湍流、空中交通、雷暴等。这些都是模型系统的固有随机因素。此外,还有因观测不完全而带来的不确定性,比如难以预测未来的空中交通流量。最后,还有模型本身的局限性,即可能遗漏了某些重要变量。
每个这样的变量都可以由一个随机变量表示,这些变量可以有不同的值,每个值都有各自的发生概率。概率密度函数和概率质量函数分别适用于连续和离散的情况。
例如,如果X是一个表示特定量湍流的随机变量,那么P(X=x)就是随机变量X取某个特定值的概率。
接下来,我们讨论概率分布。高斯分布(或正态分布)是最常用的一种分布,用于近似其他分布。高斯分布可以用以下公式表示:
[ f(x) = frac{1}{sigma sqrt{2pi}} e^{-frac{(x-mu)^2}{2sigma^2}} ]
其中,σ代表总体标准偏差,μ代表均值。
想象一下,我们想要绘制两个变量的联合分布。事情会变得复杂,因为二维高斯分布涉及更多的变量。这里不仅需要理解单个变量的标准偏差,还需要考虑变量间的相互关系。为此,我们使用协方差矩阵来表示这种关系。
协方差矩阵中的元素表示两个随机变量间的关系,通过以下公式计算:
[ text{Cov}(X,Y) = E[(X - muX)(Y - muY)] ]
拉普拉斯分布则是一种具有尖锐峰顶的分布,与高斯分布的平滑峰顶形成对比。拉普拉斯分布也被称为双指数分布,其公式为:
[ f(x|mu,b) = frac{1}{2b} e^{-frac{|x-mu|}{b}} ]
信息论关注的是在给定一组值和概率的情况下,能够捕捉多少信息。例如,如果您被告知明天会呼吸,这几乎不会引起惊讶,因为您存活的可能性非常高。然而,如果被告知夏天会下雪,这条信息则具有极高的信息量。
信息量可以通过以下公式计算:
[ I(x) = -log(P(x)) ]
在机器学习中,信息的重要性体现在评估模型性能时。例如,当我们输入一个概率分布并得到另一个分布时,可以通过比较两个分布的信息量来衡量模型的学习效果。这通常通过Kullback-Leibler散度(KL散度)来实现。
结构化概率模型(如贝叶斯网络)用于表示多个变量及其条件概率之间的相互作用。这些模型通常由节点和边构成,其中节点代表变量,边表示条件关系。例如,在一个简单的贝叶斯网络中,节点a影响节点b和c,b又影响c。
通过这些模型,我们可以计算所有变量组合的概率,具体公式如下:
[ P(a, b, c) = P(a)P(b|a)P(c|a,b) ]
无向模型则不需要有向边,而是通过无向连接表示变量间的依赖关系。
这就是机器学习中概率论的基础,希望这对您有所帮助!