11月 08
  1. 今天
  2. 星期五
58:51
grade

导读

《机器之心》报道,编辑部聚焦于AI模型的可信任度与输出解读,探讨在重要领域应用机器学习系统时,如何确保我们能理解并信任其输出,以及何时应保持审慎。文章指出,对于复杂系统输出的信任,关键在于要求系统产生可读的解释,这一解释需对人类或其他可信系统易于理解,以便识别潜在错误。

机器之心报道

随着AI技术在关键领域的深化应用,明确为何相信AI输出及其不可信任时刻变得至关重要。获得系统输出信任的方法之一是要求AI提供清晰、可读的解释,即确保任何错误都能被发现。这一原则适用于构建司法系统可信度,要求法院提交易于理解的书面裁决理由。

针对大型语言模型,类似策略同样适用。确保AI生成的文本易于理解极为关键,特别是在执行如数学、编程这类复杂任务时。

图解说明

若让AI创作快速排序算法,AI迅速完成任务,代码简洁。然而,无编程经验的人如何判断AI生成的代码正确性?

OpenAI在最新研究中深入探讨了这一问题。

论文概览

论文标题:《证明者-验证者游戏提升LLM输出可读性》 论文链接:访问链接

研究团队发现,单纯追求正确答案,AI模型生成的解释可能难以理解,导致人类评估者误判概率增加。因此,他们致力于训练高级语言模型,使其产出易于简单模型验证的文本,同时保持对人类的可读性。

实现策略

借鉴2021年论文《Learning to Give Checkable Answers with Prover-Verifier Games》,研究团队引入“证明者-验证者博弈”框架,让两个AI模型相互对抗,直至达成平衡。此时,证明者提供的解释既具备可读性,又保持合理正确性。

性能与挑战

通过优化数学问题的思维链,模型性能提升50%,输出解释更易理解。这种方法有助于提高人类评估答案准确性的效率,推动缩小高性能与高可读性模型间的差距,成为未来对齐研究的关键目标。

博弈机制

研究设计了训练流程,鼓励强大模型生成可被较弱模型验证的解释。模型在两个阶段交替训练:验证者阶段,训练较弱模型识别正确答案;证明者阶段,指示较强模型在“有用”或“狡猾”模式下操作,以此优化输出质量。

结果与影响

研究揭示了性能与可读性间的权衡:少量监督微调的模型具有高可读性,但准确性较低;单纯追求正确性导致解释性下降。通过“证明者-验证者博弈”,模型能在保持高可读性的同时维持适度准确性。

结论

在关键领域广泛部署大型语言模型时,理解其输出的可信度至关重要。要求AI提供清晰、可验证的解释,不仅能增强对模型输出的信任,还为未来超智能AI系统对齐提供了基础,即在无需人类直接监督的情况下,确保AI系统与人类价值观一致。此项研究展示了在特定数据集上实现的潜力,预期在开发透明、可靠、可验证AI系统方面发挥关键作用,提升其在实际应用中的信任度与安全性。