机器学习必备的数学基础有哪些?
作者头像
  • 李蓝奇
  • 2019-10-18 12:31:30 3

如今,计算机科学、人工智能和数据分析已经成为推动技术发展的主要动力,而不再是次要因素。

很多人在尝试接触这些领域时会遇到一些挑战: - 要过滤垃圾邮件,通常需要具备贝叶斯概率论的基础; - 若要进行语音识别,则需要理解隐马尔科夫模型; - 若要通过观察到的样本推断总体特征,必须掌握大数定律和估计理论; - 在统计推断过程中,了解蒙特卡洛方法和马尔科夫过程的平稳状态至关重要; - 如果要从文本中提取特定实体,也需要深入理解概率图模型。

面对这些专业术语,许多人可能会感到畏惧并选择放弃。

为什么会这样?

因为机器学习所需的数学知识具有较高的学习门槛。

那么需要多少数学知识呢?宾夕法尼亚大学的一位计算机教授在其著作《计算机科学中的数学:代数学、拓扑学和微分学》中,用了1900页的篇幅来讲解相关数学知识。

别担心,继续往下看……

作为机器学习和自然语言处理领域的专家,我参与了许多涉及知识图谱、语义理解和智能问答的技术项目。我认为,可以通过更简洁高效的方法来掌握机器学习所需的数学知识。 - 首先,专注于机器学习核心算法中涉及的数学知识,精准发力; - 其次,强化基础知识与算法、应用案例之间的联系,使理论与实际应用相融合; - 同时,利用Python工具,如Numpy、Scipy、Matplotlib和Pandas,实现理论与实践的无缝对接,提高效率。

基于这些理念,我花费数月时间编写了《机器学习中的数学》系列专栏。

在这段时间里,我不仅精心梳理了知识体系的内在逻辑,还投入大量精力改进讲解技巧,力求深入浅出地呈现完整的知识体系。

近期,我将在GitChat上陆续推出《机器学习中的数学:概率统计》、《机器学习中的数学:线性代数》和《机器学习中的数学:微积分与最优化》三个专栏。这三个专栏的主要作用分别为: - 概率统计:提供发现规律、预测未知的思想方法; - 线性代数:提供空间投射和数据表示的基本工具; - 微积分与最优化:提供机器学习模型中解决方案的具体实施手段。

机器学习中的大部分思想方法和核心算法都建立在统计思想方法之上,因此我们推出的第一个专栏《机器学习中的数学:概率统计》涵盖了与机器学习紧密相关的概率统计核心内容。

扫码了解专栏详情


专栏作者:张雨萌,清华大学硕士,机器学习书籍作者

张雨萌毕业于清华大学计算机科学与技术系,目前从事机器学习和自然语言处理的研究工作。他曾参与多个涉及知识图谱、语义理解和智能问答的工程和科研项目。他特别擅长梳理知识体系的内在逻辑,从而深入浅出地展现知识体系。

专栏特色: - 详解六大核心板块:涵盖概率思想、随机变量、统计推断、随机过程、采样理论和概率模型,奠定机器学习的核心基础; - 熟练运用Python工具库:借助numpy、scipy、matplotlib和pandas等工具,无缝对接实际工程; - 结合实际案例:提供大量实战案例和完整代码,加深对概率统计的理解。

专栏大纲及内容特色: - 第一部分:概率思想。从条件概率和贝叶斯方法入手,掌握基本概念和计算方法,构建认知世界的概率思想体系。 - 第二部分:随机变量。介绍随机变量的核心内容,从单一随机变量到多元随机变量,重点讲解大数定律和中心极限定理,初步接触蒙特卡洛方法,建立重要的极限思想。 - 第三部分:统计推断。探讨如何通过局部样本推断总体特征,重点介绍极大似然估计和贝叶斯估计。 - 第四部分:随机过程。关注随机变量集合,即随机过程,通过实例如股票波动、语音信号等,深入分析马尔科夫链,探究变化的过程和稳态。 - 第五部分:采样理论。探讨如何获取服从目标分布的近似采样方法,从接受-拒绝采样到马尔科夫链-蒙特卡洛方法,加深对随机过程和随机理论的理解。 - 第六部分:概率模型。介绍概率图模型中的隐马尔科夫模型,掌握形状序列的概率估计和解码方法,为后续学习打下基础。

让我们一起踏上这段学习之旅!

希望《机器学习中的数学》系列专栏能够帮助大家顺利掌握机器学习的核心知识,构建坚实的知识基础。更重要的是,我希望我们能够形成一种思维习惯:从实际出发,条分缕析;面向实际,学以致用。

    本文来源:图灵汇
责任编辑: : 李蓝奇
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数学基础必备机器哪些学习
    下一篇