机器学习预测的不确定性
作者头像
  • 品商会mp
  • 2018-12-31 13:56:57 0

由于大多数算法的统计特性,机器学习中存在着固有的不确定性。这种不确定性的一个重要来源是不正确的标签,这可能是因为数据错误或难以确定正确标签的情况。例如,在回归任务中,我们可以将预测建模为:

这里的ε代表目标变量中的固有不确定性。假设它遵循正态分布,我们可以将其纳入似然函数中:

我们假设这是一个简单的线性回归问题。

似然函数是这些值的乘积,而似然函数的负对数则构成了成本函数:

有趣的是,这种不确定性在成本函数中消失了。这是最大后验概率方法中常见的现象。为了估计数据的不确定性程度,我们需要采用更强大的方法,比如贝叶斯线性回归。

现在假设所有情况下的不确定性σ都是相同的。但如果不是这样呢?打标签的人可能会表示对某些样本的不确定性。例如,给定债券的收益率异常低,但交易量异常高,这可能导致标签者怀疑数据有误。在计算机视觉任务中,人们可能难以区分MNIST数据集中的一些示例,如数字1和7。

一种常见做法是删除这些记录,但我们也可以利用这些信息而不完全依赖它们。

在处理线性回归模型时,我们可以通过添加σ来表示不确定性增加。为了方便起见,我们将指数乘以精度τ:

τ=1表示正常的信任水平,而较小的τ值则表示更高的不确定性。为了验证这一点,我们可以绘制两条曲线: ```python import numpy as np import matplotlib.pyplot as plt

def linreg_likelihood(x, y, theta, sigma, tau): return np.exp(-(y - theta * x) * 2 * tau / (2 * sigma * 2)) / np.sqrt(2 * np.pi * sigma ** 2 / tau)

fig, ax = plt.subplots(1, 1) y = np.linspace(1, 10, 100) ax.plot(y, linreglikelihood(5, y, 1, 0.5, 1), 'r-', lw=1, alpha=1, label='Regular Uncertainty') ax.plot(y, linreglikelihood(5, y, 1, 0.5, 0.3), 'b-', lw=1, alpha=1, label='High Uncertainty') plt.legend() ```

我们发现,不确定性较大的情况会导致更宽泛的分布,因为我们对目标值的确定性较低。如果我们把这些反馈到成本函数中,就会得到一个修改后的成本函数:

这里的τ(i)表示第i个样本的相对精度。大多数情况下,它们将是1,但标签者可以降低一些可疑数据集的τ(i)值。

拥有不寻常的损失函数不应成为问题,因为像TensorFlow这样的框架可以自动计算梯度。

二元分类中的不确定性

在二元分类任务中,我们需要使用伯努利分布而不是正态分布。

这里ρ是分布的参数,k∈{0,1}。

由于伯努利分布只有一个参数,所以不能在不改变均值的情况下改变方差。也没有明显的方法通过增加方差来表示不确定性。

我们将根据贝叶斯概率的概念推导出这个方程。在我们的例子中,k是观察到的结果,而真实的目标值t可能与k不同,我们可以用另一个伯努利分布来描述它:

这里δ是Kronecker符号,a∈[0.5,1]表示不确定性。当a=1时,我们对标签非常确定;当a=0.5时,表示我们对标签完全没有信心。

那么,给定ρ和a的观察值的概率是:

在这里,我们应用了贝叶斯规则(忽略未知的真实标签值)。

经过简单的计算,我们得出修正的伯努利分布公式:

其中

例如,在二元逻辑回归任务中,您可以使用sigmoid函数替换ρ:

并遵循梯度下降的标准流程。成本函数如下:

这是标准的交叉熵,除了ρ根据不确定性进行了调整。

多类分类中的不确定性

将二元分类扩展到多类分类是相对简单的。我们只需要用分类分布替代伯努利分布。

在这种情况下,对于不确定类别的每一次观察,我们可以定义ac,这是样本属于类别c的概率。我们得到更新的ρ~:

在这种情况下,ρ应使用softmax函数而非逻辑函数建模。

一个例子可能是MNIST数据集,其中给定的情境数字看起来像是1或7。在这种情况下,您可以将a1和a7设置为1/2,其余的设为0。在这种情况下,您的成本函数在预测1或7时不会受到惩罚,但在其他数字被错误预测时会受到惩罚。

结论

这意味着,如果您对某些数据存疑,不必抛弃它们,而是估计不确定性并将其纳入算法中。实际上,您最终会拥有一个定制的成本函数,但可以借助TensorFlow等可以自动计算梯度的框架轻松处理。

此外,这种方法也可以用来处理异常值。我们知道,异常值可以显著影响回归和分类的结果。相反,如果您认为可能存在数据错误,可以为它们分配较低的权重。

    本文来源:图灵汇
责任编辑: : 品商会mp
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
不确定性机器预测学习
    下一篇