随着人工智能系统的广泛应用,AI已成为辅助人们决策的重要工具,例如通过推荐系统算法进行电影推荐、商品推荐等,通过预测和分析系统处理贷款申请、约会和雇佣等高风险决策。然而,这些系统也可能带有偏见,影响决策的公正性。例如,美国法院使用的一款名为「选择性制裁罪犯管理档案」(Correctional Offender Management Profiling for Alternative Sanctions, COMPAS) 的人工智能软件,用于预测再犯罪的风险,辅助法官作出释放或监禁的决定。研究发现,该软件对非洲裔美国人的判决存在偏见,相较于白人罪犯,非洲裔美国人更容易被判定为高风险,从而导致更高的监禁率。
偏见数据集通常是影响机器学习公平性的重要因素之一。大多数机器学习模型是通过在大量标注数据集上训练得到的。例如,在自然语言处理中,算法通常在包含数十亿单词的语料库上训练。研究人员通常通过抓取网页(如谷歌图片和谷歌新闻)、使用特定关键词搜索或收集来自维基百科等易于获取的信息来构建这些数据集。随后,由研究人员或通过亚马逊机械土耳其人(Amazon Mechanical Turk)等众包平台对数据集进行标注和分类。
在医学领域,由于医疗数据的生成和标注成本较高,机器学习尤其容易受到偏见数据集的影响。例如,一项用于识别皮肤癌的研究使用了深度学习算法,训练数据集包含129,450张图像,其中60%来自谷歌图片。然而,这些图像中只有不到5%是深色皮肤个体的图像,且该算法并未在深色皮肤人群中进行测试。因此,该算法在不同人群中的表现可能存在显著差异。
除了数据集偏见外,机器学习算法本身也是影响公平性的重要因素。典型的机器学习算法总是力求在训练数据集上达到最大的预测精度。如果某个特定群体在训练数据集中出现的频率较高,算法会倾向于针对这些群体进行优化,从而提高整体准确度。然而,在测试阶段,测试集通常是原始训练数据集的随机子样本,因此可能包含同样的偏见。
为了确保机器学习的公平性,研究者认为主要有三种途径:
本文重点讨论了机器学习中的公平性问题,并选择了ICML 2019年发表的三篇文章进行深入分析,分别涉及图嵌入、回归和自然语言处理中的语言模型。
Facebook在ICML 2019年发表的一篇文章介绍了如何解决现有图嵌入算法在公平性约束方面的不足。文章指出,现有的图嵌入算法无法处理公平性约束,例如确保所学习的表示与某些属性(如年龄或性别)无关。为此,该研究引入了一种对抗框架,以对图嵌入进行公平性约束。
主要内容:
本文提出了一个适用于回归任务的公平算法,旨在确保预测结果在不同群体之间的公平性。该算法通过引入统计奇偶性和有界群体损失来实现公平性目标。
主要内容:
本文探讨了如何识别和减少训练数据集中的性别偏见,并评估其对语言模型性能的影响。
主要内容:
本文综述了机器学习中的公平性问题,并结合ICML 2019年发表的三篇文章进行了详细分析。这些研究提供了多种方法来减少算法中的偏见,包括数据质量提升、算法改进和正则化技术。尽管已有进展,但公平性问题仍然是机器学习领域面临的挑战,未来仍需不断探索和改进。