最近有幸借阅了Pedro Domingos的《The Master Algorithm》一书,中文译名为《终极算法》。尽管原书英文版在豆瓣上获得了8.4的评分,而中文版略低,只有7.2分。不过,我没有阅读中文版,但我个人认为原版非常值得一读,无论你是否从事机器学习领域的工作,这本书都能为你带来深刻的启示。
在这本书中,作者Pedro Domingos提出了机器学习的五大核心理念,每个理念都对应着一个特定的“部落”。这些部落分别是符号主义、连接主义、进化主义、贝叶斯主义和类比主义。作者通过这五大部落的框架,系统地阐述了机器学习的各种思想及其相互联系。
序章
在序章中,作者介绍了机器学习的五大部落,它们分别是:
第一章 机器学习的变革
我们正生活在算法时代,算法面临的最大挑战是复杂性问题。无论是时间还是空间复杂度,机器学习与传统算法的区别在于,机器学习算法是生成算法的算法。机器学习就像种植,算法是种子,数据是土壤,学习过程则是农作物的成长过程。同时,机器学习也是我们手中对抗复杂性的一把利器。
工业革命使得手工劳动实现了自动化,而信息革命则使得大脑的工作实现了自动化。机器学习的目标是进一步自动化自动化本身。如果无法实现这一点,程序员将成为系统的瓶颈。那么,为什么程序员要给自己制造麻烦呢?成为瓶颈难道不是一件坏事吗?
第二章 终极算法
在这一章中,作者提出了本书的核心观点:所有的知识,无论在过去、现在还是未来,都可以通过某种单一、通用的学习算法从数据中获取。作者将其称为“终极算法”或“主算法”。
作者列举了以下几点来证明终极算法的存在: - 神经科学实验表明,科学家可以通过改变神经元的“接受域”来引发可塑性变化。 - 进化论认为,生命的各种形态是由一个简单的机制——自然选择——产生的。 - 物理学中的简单数学公式。 - 贝叶斯理论可以将数据转化为知识。 - 计算机的存在表明,终极算法的存在是有迹可循的。
作者正式介绍了这五个部落的概念,并指出终极算法必须能够同时有效地处理这些问题。
第三章 休谟的归纳推理
哲学中的一个重要问题是经验主义和理性主义之间的争论。经验主义者通过不断试错来寻找方向,而理性主义者倾向于在行动前做好所有规划。在编程领域,这类似于传统的瀑布模型与敏捷开发的区别。
休谟的怀疑论实际上是对“因果关系”的质疑。他认为,相关性不能保证因果关系。例如,尽管火鸡在9点被喂食,但圣诞节前的9点却被宰杀了,这说明了相关性并不意味着因果关系。
在此基础上,Wolpert和Macready教授提出了“没有免费午餐”定理(NFL定理),指出在没有任何背景的情况下,没有任何一种算法比随机猜测更好。这一原理类似于帕斯卡尔的赌注,只是将“上帝”替换为“学习算法”,将“永生”替换为“精确预测”。
第四章 大脑如何学习
连接主义认为知识存在于神经元之间的连接中。不同于符号主义中的一对一映射,连接主义中的概念和神经元是多对多的关系。此外,符号主义中的学习是顺序的,而连接主义中的学习则是并行的。
人类大脑可以进行大量的并行计算,数十亿个神经元同时工作,但每个神经元的反应速度较慢。神经元每秒只能触发数千次。Warren McCulloch和Walter Pitts在1943年提出的论文开创了人工神经网络的研究,感知器就是其中一种简单形式的前馈神经网络。
然而,感知器不能处理简单的异或(XOR)等线性不可分问题。通过反向传播算法,连接主义迎来了发展的春天,多层感知器能够有效学习。但此时存在一个问题,即局部最小值问题。
第五章 退化,大自然的学习算法
退化主义的学习算法是遗传算法,它是计算数学中用于处理优化问题的搜索算法。遗传算法的核心是杂交和变异,通过这些过程,算法有机会越过局部最优解,达到全局最优解。相比之下,神经网络的调优更像是一种碰运气的行为。
第六章 在神圣的贝叶斯教堂里
贝叶斯主义者认为学习就是贝叶斯定理的应用。贝叶斯网络是一种概率图模型,可以模拟人类推理过程中的因果关系不确定性。朴素贝叶斯、马尔可夫链和隐马尔可夫模型都可以视为贝叶斯网络的特例。
第七章 像什么就是什么
类比主义的核心算法是基于已有数据判断输入数据与已有数据的相似度。这是一种简单而高效的学习算法。然而,类比主义的问题在于,两个事物的相似性并不一定意味着它们属于同一类别。
第八章 无师自通
在这一章中,作者讨论了无监督学习中的聚类和主成分分析。这两个算法都属于“无师自通”类型。当需要学习统计模型但缺乏关键信息时,可以使用EM算法和最大似然估计。K均值算法和EM算法有一些相似之处,它们都是将实体分配到某一聚类,然后更新聚类属性。
第九章 一切的拼图了如指掌
作者希望像秦始皇统一六国一样统一机器学习的所有五个部落。通过元学习,可以将不同的算法合并为一个。这种方法有助于智能体适应多种环境,并通过以往的经验来学习新任务。
第十章 建立在机器学习之上的世界
最后一章探讨了机器学习对未来社会的影响。我们与各种应用程序的互动实际上是训练一个可以理解我们的模型。未来,每个人都会有自己数字副本,这个模型会帮助我们做出各种决策,从购物到职业选择,甚至健康建议。
总之,《终极算法》是一本五星推荐的书籍,它系统地整理了机器学习的各种思想,为读者提供了清晰的线索。希望这篇读书笔记对你有所启发,欢迎与我分享你的见解!