机器学习所需的一切概率基础
作者头像
  • 颜如玉
  • 2020-05-13 10:48:53 4

机器学习的核心在于预测,无论是预测具有多种功能的房屋价格,还是基于单细胞测序判断肿瘤是否为恶性,这些预测都基于从数据中发现的相关性,而非绝对确定的结果。

因此,我们可以认为机器学习是在给定一定输入或已知相关性的情况下,预测出最有可能的结果(类似于条件概率P(x|y))。这需要对概率论有深刻的理解,尽管许多使用机器学习的人只将其视作“黑盒”工具(他们并不关心模型如何生成预测,只关注预测本身),但也有人重视理解模型的工作原理,以便更好地掌握研究过程的机制。

机器学习中的许多“学习”过程实际上源自概率和概率分布的概念,因此理解这些数学概念有助于深入理解机器学习。

接下来,我会简要介绍一些基础的概率知识——如果您已经熟悉条件概率和高斯分布的基本概念,可以直接跳过这部分。

假设您正在乘飞机,试图预测飞机到达目的地的时间。首先,您需要识别影响这一时间的因素,如湍流、空中交通、雷暴等。这些都是模型系统的固有随机因素。此外,还有因观测不完全而带来的不确定性,比如难以预测未来的空中交通流量。最后,还有模型本身的局限性,即可能遗漏了某些重要变量。

每个这样的变量都可以由一个随机变量表示,这些变量可以有不同的值,每个值都有各自的发生概率。概率密度函数和概率质量函数分别适用于连续和离散的情况。

例如,如果X是一个表示特定量湍流的随机变量,那么P(X=x)就是随机变量X取某个特定值的概率。

接下来,我们讨论概率分布。高斯分布(或正态分布)是最常用的一种分布,用于近似其他分布。高斯分布可以用以下公式表示:

[ f(x) = frac{1}{sigma sqrt{2pi}} e^{-frac{(x-mu)^2}{2sigma^2}} ]

其中,σ代表总体标准偏差,μ代表均值。

想象一下,我们想要绘制两个变量的联合分布。事情会变得复杂,因为二维高斯分布涉及更多的变量。这里不仅需要理解单个变量的标准偏差,还需要考虑变量间的相互关系。为此,我们使用协方差矩阵来表示这种关系。

协方差矩阵中的元素表示两个随机变量间的关系,通过以下公式计算:

[ text{Cov}(X,Y) = E[(X - muX)(Y - muY)] ]

拉普拉斯分布则是一种具有尖锐峰顶的分布,与高斯分布的平滑峰顶形成对比。拉普拉斯分布也被称为双指数分布,其公式为:

[ f(x|mu,b) = frac{1}{2b} e^{-frac{|x-mu|}{b}} ]

信息论关注的是在给定一组值和概率的情况下,能够捕捉多少信息。例如,如果您被告知明天会呼吸,这几乎不会引起惊讶,因为您存活的可能性非常高。然而,如果被告知夏天会下雪,这条信息则具有极高的信息量。

信息量可以通过以下公式计算:

[ I(x) = -log(P(x)) ]

在机器学习中,信息的重要性体现在评估模型性能时。例如,当我们输入一个概率分布并得到另一个分布时,可以通过比较两个分布的信息量来衡量模型的学习效果。这通常通过Kullback-Leibler散度(KL散度)来实现。

结构化概率模型(如贝叶斯网络)用于表示多个变量及其条件概率之间的相互作用。这些模型通常由节点和边构成,其中节点代表变量,边表示条件关系。例如,在一个简单的贝叶斯网络中,节点a影响节点b和c,b又影响c。

通过这些模型,我们可以计算所有变量组合的概率,具体公式如下:

[ P(a, b, c) = P(a)P(b|a)P(c|a,b) ]

无向模型则不需要有向边,而是通过无向连接表示变量间的依赖关系。

这就是机器学习中概率论的基础,希望这对您有所帮助!

    本文来源:图灵汇
责任编辑: : 颜如玉
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
概率机器一切基础学习
    下一篇