在机器学习领域,区分异常数据或显著差异的数据至关重要。谷歌在NeurIPS 2019会议上发布了一篇论文,提出并公布了针对基因组序列的分布外(OOD)检测的理想基准数据集。这项研究提出了一个基于似然比的方法,显著提高了OOD检测的准确性。
深度学习专家在部署机器学习系统时,需要确保系统能够识别并处理异常数据或与训练数据有显著差异的数据。这是因为深度神经网络可能会错误地将分布外的数据分类为分布内的数据,从而导致错误的决策。在诸如基于基因组序列的细菌检测这样的实际应用中,异常数据检测尤其重要,因为这关系到传染病的诊断和治疗,以及食源性病原体的鉴定。
近年来,随着新细菌种类的不断发现,基于已知分类训练的神经网络分类器虽然在交叉验证中表现出较高的准确性,但在实际应用中仍然面临挑战。这是因为实际数据会不断发展变化,不可避免地包含以前未见过的基因组序列(即OOD数据)。
在NeurIPS 2019发布的论文《分布外检测的似然比》中,谷歌研究人员受到新细菌种类检测的启发,提出并公布了一个针对基因组序列的OOD检测基准数据集。论文链接:https://arxiv.org/abs/1906.02845
他们使用基于基因组序列的生成模型测试了现有的OOD检测方法,发现传统的似然值方法通常会出现错误。在图像深度生成模型的研究中,他们也观察到了类似的现象,并通过统计背景影响来解释这种现象,最终提出了一种基于似然比的方法,显著提升了OOD检测的准确性。
为了模拟实际问题并评估不同的方法,研究人员构建了一个新的细菌数据集,数据来源于美国国家生物技术信息中心(NCBI)的原核生物基因组序列数据。他们将基因组片段化为250个短序列长度的碱基对,并将分布内和分布外的数据按发现日期分开。在训练模型时,他们通过绘制似然值曲线来检验模型区分分布内和分布外数据的能力。如果OOD序列的似然值直方图与分布内序列高度重合,则说明模型无法有效区分两种数据。
在早期的图像深度生成模型研究中,也得到了类似的结果。例如,使用Fashion-MNIST数据集训练PixelCNN++模型时,模型对OOD数据(如MNIST图像)分配了更高的似然值。
为了去除背景影响并专注于语义成分,研究人员提出了一种基于似然比的方法。他们通过扰动输入方法训练背景模型,然后计算残缺模型与背景模型之间的似然比,以去掉背景成分。这种方法主要关注语义成分,从而更准确地检测OOD数据。
为了定性评价似然值与似然比之间的差异,研究人员绘制了Fashion-MNIST和MNIST数据集的对数似然热图和似然比热图。结果显示,似然比方法更集中在语义像素上,从而更适合OOD检测。
实验结果表明,使用似然比方法后,AUROC评分从0.089提高到0.994。此外,当该方法应用于基因组基准数据集时,与其他12种基线方法相比,表现最佳。尽管如此,研究人员表示,该方法仍有改进空间,以满足实际应用的高准确性要求。
via:https://ai.googleblog.com/2019/12/improving-out-of-distribution-detection.html