自然言语处理来源:马尔科夫和香农的言语建模实验
作者头像
  • 王恩慧
  • 2020-06-17 20:26:30 6

马尔科夫与香农:语言建模的奠基者

在自然语言处理领域,语言建模和文本生成是目前非常热门的研究方向。然而,这些研究并非现代产物,早在一百多年前,数学大师马尔科夫和香农就已经开始了相关的探索。

1913年,俄国数学家安德烈·安德烈耶维奇·马尔科夫(Andrey Andreyevich Markov)在圣彼得堡的书房中,手拿普希金的《尤金·奥涅金》,却没有像大多数人那样沉浸在文学世界中。他去掉书中的标点和空格,将前两万个字母记录下来,再将它们排列在一个200格的表格中,每格包含10个字符。他统计了每一行和每一列中元音的数量,然后进行了整理。

对于旁人而言,马尔科夫的行为似乎有些古怪。他为何要如此拆解这部文学作品?其实,马尔科夫的目的是寻找文本中的数学规律,而非文学价值。他希望通过分析,找出文本中字母之间的关联性。

马尔科夫的研究重点在于概率论,特别是事件间的因果关系。他发现,过去的字母在一定程度上影响着当前字母的出现概率。通过统计,他发现普希金的小说中,元音字母和辅音字母的组合有一定的模式。例如,元音和辅音的组合频率较高,这表明在普希金的文本中,一个字母如果是元音,下一个字母很可能是辅音,反之亦然。

马尔科夫的这项研究证明,《尤金·奥涅金》不仅包含随机的字母分布,还具有一定的统计特性。尽管他的论文“An Example of Statistical Investigation of the Text Eugene Onegin Concerning the Connection of Samples in Chains”在他生前并未引起广泛关注,直到2006年才被翻译成英文,但其中的核心概念已经传遍全球,并在克劳德·香农1948年的论文《通信的数学理论》中得到了进一步的发展。

香农的论文提出了精确测量信息量的方法,为信息论奠定了基础。他对马尔科夫的观点深感兴趣:在给定的文本中,可以估计出某个字母或单词出现的概率。通过一系列实验,香农证明了这一点。其中一个实验中,他从包含27个符号的字母表中随机抽取字母,生成了一段毫无意义的字符串:“XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD”。

香农指出,这段文字毫无意义,因为字母的选择不符合实际的语言规律。他意识到,辅音比元音更常出现,而某些字母如E比其他字母更常见。于是,他调整了字母表,使得模型更准确地反映英语的概率分布。当重新生成文本时,结果逐渐接近真实的英语:“OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA THEI EEI ALHENHTTPA OOBTTVA NAH BRL”。

香农进一步证明,随着统计模型变得更为复杂,生成的文本也越来越接近真实的英语。通过马尔科夫的理念,香农揭示了英语的统计结构,并表明这些模型可以通过分析字母和单词之间的相关概率来生成有意义的语言。

马尔科夫和香农的研究为自然语言处理开辟了新天地。马尔科夫拓展了随机性的研究范围,香农则发明了一种精确测量信息量的方法,彻底改变了电子信息和数字通信行业。他们的统计方法不仅推动了自然语言处理领域的发展,也为今天的许多技术奠定了基础。

    本文来源:图灵汇
责任编辑: : 王恩慧
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
马尔科夫香农言语建模来源自然实验处理
    下一篇