成见是机器学习不可避免的问题之一。机器学习系统依赖于数据,因此很容易识别出数据中存在的偏见。例如,一个基于现有职业培训数据的招聘系统可能会“学会”认为女性不太适合担任CEO职位。
尽管清除数据中的所有偏见非常困难,但即便在最细致的处理下,机器学习系统也可能发现一些隐晦且复杂的偏见。因此,计算机科学家、政策制定者以及关心社会正义的人们都在探索如何避免人工智能产生偏见。
然而,机器学习的本质也为我们提供了一个全新的视角来思考公平问题。机器学习系统不仅帮助我们识别偏见,还为我们提供了概念、词汇和工具,使得我们能够更直接、更准确地处理这些问题。
长期以来,我们倾向于将公平视为一种基本的道德准则。例如,如果两个孩子因为数量不同的饼干而争吵,大多数人会觉得这是不公平的,除非其中一方有合理的原因获得较少的饼干,比如年龄较小或者做了更多的家务。
但“合理原因”具体指什么?理想情况下,我们能够就某些明显的不公平达成一致,如种族歧视。然而,诸如《平权行动》等复杂的社会政策仍然存在争议。
例如,20世纪70年代,五大交响乐团中女性音乐家的比例仅为5%。后来,乐团采取了盲听试镜的方式,使得女性比例在1997年上升到25%,现在则达到了30%。但这是否意味着乐团已经实现了真正的公平?或许,为了真正实现公平,乐团需要进一步提升女性比例,达到全国整体性别比例的51%?或者,比例应该反映申请者的实际性别分布?
机器学习可以帮助我们更深入地探讨这些问题,因为它要求我们明确地指出什么样的结果是我们愿意接受的。它为我们提供了一种更清晰、更有建设性的讨论工具。
机器学习中最常见的任务之一就是将输入分配到不同的类别中,如将番茄分为“可接受”或“丢弃”。每个输入都会被分配到相应的类别,并附有置信度评分。例如,一个番茄可能被分类为“可接受”的概率为72%。
这种分类系统允许我们精确地衡量系统性能,如错误分类的数量。此外,系统还提供了调整结果的灵活性,以便反映不同的公平标准。例如,你可以调整分类的置信度阈值,以控制多少好番茄被误分为“丢弃”。
在贷款审批过程中,机器学习同样可以提供帮助。如果我们发现女性在“批准”类别的占比远低于她们在申请者中的比例,我们可能需要检查是否存在误报。机器学习领域的研究者们已经为此提供了具体的定义,如“人口统计平价”、“预测平等率”和“反理想公平”,这些术语有助于更全面地理解这些讨论。
在更高层次上,机器学习系统的设计可以反映不同的目标。例如,你可以训练系统以最大化利润,或服务最多数量的客户。甚至可以考虑经济公平,向低收入人群提供贷款。机器学习系统可以让你平衡各种利益,例如在保证低收入人群贷款的同时,保持女性申请者的比例。
机器学习揭示了一个重要的事实:我们无法同时优化所有价值。例如,增加低收入申请者的贷款比例可能会降低女性在贷款群体中的比例。因此,我们需要找到一个平衡点,既能满足低收入人群的需求,又能保持公平性。
机器学习不仅让我们意识到公平问题的复杂性,还促使我们进行价值权衡。这就像政治辩论一样,我们需要权衡不同价值观的重要性。例如,是优先考虑高质量的番茄酱还是低成本的番茄酱?是增加乐团中的女性音乐家数量还是维持现有的乐器配置?是优先考虑低收入人群的贷款还是保证女性申请者的比例?
机器学习通过提供精确的讨论工具和调整机制,帮助我们更好地理解和解决这些问题。最重要的是,它鼓励我们根据自己的价值观做出明智的决策,找到最优解。