机器学习预测的不确定性

品商会mp
2018-12-31 13:56:57 0

+关注

由于大多数算法的统计特性，机器学习中存在着固有的不确定性。这种不确定性的一个重要来源是不正确的标签，这可能是因为数据错误或难以确定正确标签的情况。例如，在回归任务中，我们可以将预测建模为：

这里的ε代表目标变量中的固有不确定性。假设它遵循正态分布，我们可以将其纳入似然函数中：

我们假设这是一个简单的线性回归问题。

似然函数是这些值的乘积，而似然函数的负对数则构成了成本函数：

有趣的是，这种不确定性在成本函数中消失了。这是最大后验概率方法中常见的现象。为了估计数据的不确定性程度，我们需要采用更强大的方法，比如贝叶斯线性回归。

现在假设所有情况下的不确定性σ都是相同的。但如果不是这样呢？打标签的人可能会表示对某些样本的不确定性。例如，给定债券的收益率异常低，但交易量异常高，这可能导致标签者怀疑数据有误。在计算机视觉任务中，人们可能难以区分MNIST数据集中的一些示例，如数字1和7。

一种常见做法是删除这些记录，但我们也可以利用这些信息而不完全依赖它们。

在处理线性回归模型时，我们可以通过添加σ来表示不确定性增加。为了方便起见，我们将指数乘以精度τ：

τ=1表示正常的信任水平，而较小的τ值则表示更高的不确定性。为了验证这一点，我们可以绘制两条曲线： ```python import numpy as np import matplotlib.pyplot as plt

def linreg_likelihood(x, y, theta, sigma, tau): return np.exp(-(y - theta * x) * 2 * tau / (2 * sigma * 2)) / np.sqrt(2 * np.pi * sigma ** 2 / tau)

fig, ax = plt.subplots(1, 1) y = np.linspace(1, 10, 100) ax.plot(y, linreglikelihood(5, y, 1, 0.5, 1), 'r-', lw=1, alpha=1, label='Regular Uncertainty') ax.plot(y, linreglikelihood(5, y, 1, 0.5, 0.3), 'b-', lw=1, alpha=1, label='High Uncertainty') plt.legend() ```

我们发现，不确定性较大的情况会导致更宽泛的分布，因为我们对目标值的确定性较低。如果我们把这些反馈到成本函数中，就会得到一个修改后的成本函数：

这里的τ(i)表示第i个样本的相对精度。大多数情况下，它们将是1，但标签者可以降低一些可疑数据集的τ(i)值。

拥有不寻常的损失函数不应成为问题，因为像TensorFlow这样的框架可以自动计算梯度。

二元分类中的不确定性

在二元分类任务中，我们需要使用伯努利分布而不是正态分布。

这里ρ是分布的参数，k∈{0,1}。

由于伯努利分布只有一个参数，所以不能在不改变均值的情况下改变方差。也没有明显的方法通过增加方差来表示不确定性。

我们将根据贝叶斯概率的概念推导出这个方程。在我们的例子中，k是观察到的结果，而真实的目标值t可能与k不同，我们可以用另一个伯努利分布来描述它：

这里δ是Kronecker符号，a∈[0.5,1]表示不确定性。当a=1时，我们对标签非常确定；当a=0.5时，表示我们对标签完全没有信心。

那么，给定ρ和a的观察值的概率是：

在这里，我们应用了贝叶斯规则（忽略未知的真实标签值）。

经过简单的计算，我们得出修正的伯努利分布公式：

其中

例如，在二元逻辑回归任务中，您可以使用sigmoid函数替换ρ：

并遵循梯度下降的标准流程。成本函数如下：

这是标准的交叉熵，除了ρ根据不确定性进行了调整。

多类分类中的不确定性

将二元分类扩展到多类分类是相对简单的。我们只需要用分类分布替代伯努利分布。

在这种情况下，对于不确定类别的每一次观察，我们可以定义ac，这是样本属于类别c的概率。我们得到更新的ρ~：

在这种情况下，ρ应使用softmax函数而非逻辑函数建模。

一个例子可能是MNIST数据集，其中给定的情境数字看起来像是1或7。在这种情况下，您可以将a1和a7设置为1/2，其余的设为0。在这种情况下，您的成本函数在预测1或7时不会受到惩罚，但在其他数字被错误预测时会受到惩罚。

结论

这意味着，如果您对某些数据存疑，不必抛弃它们，而是估计不确定性并将其纳入算法中。实际上，您最终会拥有一个定制的成本函数，但可以借助TensorFlow等可以自动计算梯度的框架轻松处理。

此外，这种方法也可以用来处理异常值。我们知道，异常值可以显著影响回归和分类的结果。相反，如果您认为可能存在数据错误，可以为它们分配较低的权重。

图灵汇

责任编辑：：品商会mp

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

不确定性机器预测学习

向佳

2018-12-31

二元分类中的不确定性

多类分类中的不确定性

结论

简单的自编码器（实际篇）｜机器学习你会遇到的“坑”