近日,阿里AI在权威常识问答数据集CommonsenseQA上刷新了世界纪录,超越微软夺得第一,显著提升了AI的常识推理能力。这项技术是在达摩院科学家的指导下,由“95后”实习生叶志秀完成的。
CommonsenseQA是一个用于研究基于常识知识的问答任务的数据集,相比之前的SWAG和SQuAD数据集,它更具挑战性。尽管目前流行的语言模型BERT在SWAG和SQuAD上的表现已经接近或超过了人类水平,但在CommonsenseQA上的准确率仍然远低于人类。
自然语言处理(NLP)是人工智能领域的重要分支,其中常识推理是最具挑战性的任务之一。在机器翻译和阅读理解等领域,AI的表现已经接近甚至超过了人类水平,阿里AI也在国际顶级赛事如WMT、SQuAD和MS MARCO中取得了优异的成绩。
然而,AI在常识推理方面的表现仍远远落后于人类。常识包括大多数人普遍认可的客观事实,例如盐是咸的、下雨要打伞等。人类在回答问题时通常会结合这些显而易见的背景知识,但机器缺乏这种常识,无法自动关联“马路上,人们撑着伞”与“外面正在下雨”之间的逻辑关系。
著名深度学习专家Yann LeCun曾表示,即便是最先进的AI在常识方面也比不上一只猫。在包含1.2万多个常识问题的CommonsenseQA数据集中,最流行的AI模型BERT的准确率仅为56.7%,远低于人类的89%。
阿里巴巴达摩院语音实验室提出了一种名为AMS的方法,显著提高了BERT模型的常识推理能力。这种方法采用了与BERT相同的模型架构,仅对BERT进行了预训练,在不增加计算复杂度的情况下,将CommonsenseQA数据集上的准确率提升了5.5%,达到了62.2%。
这一技术突破将大幅提高未来人机交互产品的常识理解能力,可以应用于语音导航、智能电视、语音售票机等多种产品中。例如,在导航系统中,AI具备常识后,就能避免将用户引导到错误的位置。
达摩院表示,未来将开源该模型和论文,与业界分享最新的研究成果。
—
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才华、有热情的朋友加入我们!详情请在量子位公众号(QbitAI)对话界面输入“招聘”二字查看。