长期以来,AI 图像识别一直是一个难以清晰解释的过程。然而,麻省理工学院林肯实验室情报和决策技术小组的研究试图使AI的决策过程更加透明。该团队在今年夏天的CVPR会议上发布了一篇题为《设计透明:弥合视觉推理表现与可解释性的差距》的论文。论文中介绍的系统可以执行类似于人类的推理步骤,从而实现图像识别任务,并以图像形式展示其决策过程。
一直以来,研究人员都在努力解决神经网络如何做出决策的问题。神经网络模仿人类大脑的工作原理,旨在模拟人类的学习方式。虽然简单的神经网络通常只有一个输入层和一个输出层,中间有一层负责转换输入数据,但一些复杂的深度神经网络却无法遵循这样的简单结构。因此,随着层数的增加,神经网络的决策过程变得越来越复杂,成为一个“黑箱”问题,难以被外界理解。
理解AI的决策过程至关重要。例如,在自动驾驶汽车中使用的神经网络需要区分行人和路标。然而,目前最先进的神经网络往往缺乏有效的方法让人们了解其推理过程。为了应对这一挑战,麻省理工学院林肯实验室的研究人员开发了一种名为TbD-net的神经网络。该网络能够模仿人类的推理步骤来解答图像相关的问题,并通过热力图展示其视觉分析过程。这种方法使得研究人员能够直观地理解网络的决策过程。
TbD-net的工作流程涉及多个模块,这些模块相当于流水线上的工人,各自负责不同的任务。每个模块基于前一个模块的结果进行操作,最终生成综合结论。TbD-net利用AI技术,将任务分解成多个子任务,并按阶段逐步处理图像。例如,如果询问“那个巨大的金属立方体是什么颜色?”TbD-net会依次确定物体大小、材质类型、形状,最后确定颜色。
研究人员通过对TbD-net进行7万张图片和70万个问题的训练,然后用1.5万张图片和15万个问题进行测试,结果显示出98.7%的准确率,优于其他基于神经模块网络的系统。通过进一步分析模型的决策过程,研究人员可以找到潜在问题并进行针对性优化,最终将准确率提升至99.1%。
这项研究不仅有助于优化神经网络,还强调了理解AI推理过程的重要性。只有当用户能够理解AI的推理过程,才能更好地识别和纠正模型的错误预测。近年来,许多企业和科研机构都在尝试解决AI“黑箱”问题,以提高系统的透明度和可信度。例如,IBM提出了AI“状态说明书”,而微软、埃森哲和Facebook则开发了自动化工具来检测和减少算法中的偏见。
总之,通过提高AI系统的透明度,我们不仅能更好地理解其工作原理,还能增强用户对AI的信任,从而推动其广泛应用和发展。