在机器学习领域,区分异常数据或与训练数据存在显著差异的数据至关重要。谷歌在NeurIPS 2019会议上发布了一篇关于基因组序列分布外(OOD)检测的理想基准数据集的研究报告,提出了基于似然比的方法,以显著提高检测的准确性。
深度学习专家在部署机器学习系统时,需要确保系统能够识别异常数据或与训练数据显著不同的数据。这是因为深度神经网络分类器可能会以高置信度将分布外的输入错误分类为分布内数据,这对实际应用来说非常危险。例如,在基于基因组序列进行细菌检测的应用场景中,区分异常数据尤为重要。这种检测对于传染病的诊断和治疗以及食源性病原体的鉴定至关重要。
近年来,随着新细菌种类的不断发现,虽然基于已知分类训练的神经网络分类器已经实现了较高的准确性,但在实际应用中仍面临挑战。因为现实世界的数据不断变化,不可避免地会出现新的基因组序列,这使得模型难以准确识别这些新数据。
在《分布外检测的似然比》这篇论文中,谷歌的研究人员受到新细菌种类检测问题的启发,开发了一个新的细菌数据集,用于评估不同的OOD检测方法。他们通过模拟实际应用中的数据,将基因组序列分为分布内和分布外两类,并利用分布内数据训练深度生成模型。实验结果显示,传统的似然值方法在区分分布内和分布外数据方面存在不足,因为背景统计因素会影响似然值的计算结果。
为了解决这个问题,研究人员提出了一种基于似然比的方法,旨在去除背景影响,专注于语义成分。通过引入扰动输入的方法,他们训练了一个背景模型,并计算了残缺模型与背景模型之间的似然比。这种方法能够更好地捕捉到语义信息,从而提高了OOD检测的准确性。
实验结果表明,该似然比方法在多项基准测试中表现出色,尤其是在基因组数据集上,其性能超过了其他12种基线方法。尽管如此,研究人员仍然认为该方法还有改进的空间,以满足实际应用中的高准确性要求。
通过这一研究,谷歌为机器学习社区提供了宝贵的资源和方法,有助于提升OOD检测的性能,为未来的研究和应用奠定了坚实的基础。