麻省理工学院的研究人员近期发表了两篇论文,指出目前的机器学习模型尚无法有效辨别虚假新闻报道。尽管一些专家认为可以利用基于相同机器学习技术的系统来识别此类新闻,但麻省理工学院的博士生Tal Schuster的研究发现,虽然机器学习模型能够识别出机器生成的文本,但对于判断故事的真实性,这些模型仍存在局限。
许多自动事实核查系统通常会借助一个名为“事实提取与验证”(FEVER)的数据集进行训练,其中包含大量真实陈述。然而,在一项研究中,Schuster及其团队发现,即使已知某个陈述是真实的(例如,“格雷格说他的车是蓝色的”),机器学习系统在处理否定陈述时(如“格雷格从未说过他的车不是蓝色的”)仍然会遇到困难。
研究人员指出,这一问题的根源在于数据集中存在人为偏见。创建FEVER数据集的人倾向于将错误条目写成否定陈述,而真实陈述则写成肯定陈述。这导致机器学习系统倾向于将含有否定陈述的句子视为虚假信息。麻省理工学院教授Regina Barzilay表示:“如果设定一个简单的任务目标,系统可以实现这个目标,但这并不意味着它可以区分真假新闻。”
这两项研究均由Schuster主导,并由麻省理工学院的研究团队共同完成。值得注意的是,第二项研究表明,尽管机器学习系统可以很好地识别出由机器编写的新闻故事,但在区分真实新闻和虚假新闻方面,它们依然表现不佳。