在机器学习领域,识别异常数据或显著差异数据显得尤为关键。谷歌在2019年NeurIPS会议上发布的论文中提出了一个理想基准数据集,专门用于基因组序列的异常数据检测(Out-of-Distribution, ODD)。这篇论文介绍了一种基于似然比的方法,旨在显著提升异常数据检测的准确性。
深度学习专家要想成功部署机器学习系统,必须确保系统能有效区分异常数据或与训练数据存在显著差异的数据。由于深度神经网络分类器可能将分布外数据错误分类到分布内类别,这种区分变得尤其重要。尤其是在利用这些预测结果进行决策时,准确识别异常数据显得更加关键。
例如,将机器学习应用于细菌检测,特别是基于基因组序列的检测,是一项挑战性的任务。这对于传染病如败血症的诊断和治疗,以及食源性病原体的鉴定至关重要。
近年来,随着新细菌种类的不断发现,虽然基于已知分类的神经网络分类器通过交叉验证显示出了很高的准确性,但在实际应用中依然面临巨大挑战。因为现实数据总是在变化和发展,不可避免地会出现一些未在训练数据中出现的基因组序列(即分布外数据)。
为了评估不同方法的效果,研究人员构建了一个新的细菌数据集,这些数据源自美国国家生物技术信息中心公开的基因组序列数据。他们将这些基因组序列按发现日期分为分布内和分布外两类,以此来测试深度生成模型的异常数据检测能力。然而,实验结果表明,这些模型很难区分分布内和分布外的基因组序列。
研究进一步发现,背景统计因素会影响模型对似然值的计算。为了解决这个问题,研究人员提出了一种基于似然比的方法,这种方法可以去除背景噪声,更准确地捕捉到语义信息。通过对Fashion-MNIST和MNIST数据集的实验,他们发现似然比方法在识别分布外数据方面表现更佳。
具体来说,他们采用扰动输入的方法来训练背景模型,通过随机改变输入值的位置来模拟背景噪声。然后,他们计算完整模型与背景模型之间的似然比,从而去除背景成分,专注于语义信息。这种方法在实际应用中取得了显著效果,特别是在基因组数据集上,其性能超过了其他12种基线方法。
尽管如此,研究人员指出,基于似然比的方法在实际应用中仍有改进的空间,需要进一步的研究来提高准确性和实用性。