只需十四步：从零末尾掌握Python机器学习（附资源）

Z科技
2020-06-07 07:51:15 7

Python 入门机器学习教程

Python 是当前最流行的机器学习编程语言，拥有海量的学习资源。如果你正考虑从零开始学习 Python 机器学习，这篇教程可能会对你有所帮助。原文由 KDnuggets 的副主编兼数据科学家 Matthew Mayo 撰写，机器之心进行了整合。教程分为两部分，你可以访问以下链接查看原文：Part 1 和 Part 2。

在众多资源中做出选择可能是一项挑战，但本教程旨在帮助你快速上手，从零开始掌握 Python 机器学习的基础知识。你不需要具备任何 Python 或机器学习的专业背景，只需准备好时间和精力去学习。

基础篇

第一步：学习基本的 Python 技能

要使用 Python 实现机器学习，掌握基本的 Python 知识至关重要。幸运的是，Python 广泛应用于科学计算和机器学习领域，因此很容易找到适合初学者的教程。无论你是否有编程经验，都可以从以下资源开始学习：

完全没有编程经验：推荐《Python 硬学》（Learn Python the Hard Way），作者 Zed A. Shaw。
有编程经验但不懂 Python：可以尝试谷歌开发者 Python 课程，或学习 M. Scott Shell 的《Python 科学计算入门》。
需要快速上手 Python：可以参考《在 Y 分钟内学会 X》（X=Python）的教程。

如果你已经是经验丰富的 Python 程序员，可以跳过这一步，但仍然建议经常查阅 Python 官方文档：https://www.python.org/doc/

第二步：掌握机器学习基础知识

了解机器学习的基本概念非常重要。尽管深入了解机器学习理论很有价值，但你并不需要成为机器学习专家就能有效使用 Python 进行机器学习。吴恩达在 Coursera 上的机器学习课程广受好评，但建议先阅读他的课堂笔记，特别是那些与 Python 学习相关的部分。另外，Tom Mitchell 的机器学习课程也非常值得一看。

第三步：了解 Python 科学计算库

掌握 Python 后，接下来要熟悉一些常用的科学计算库，如 NumPy、Pandas 和 Matplotlib。这些库可以帮助你处理数据和实现机器学习算法。可以通过以下资源学习这些库的使用：

Scipy Lecture Notes：由 Gaël Varoquaux、Emmanuelle Gouillart 和 Olav Vahtras 编写。
10 Minutes to Pandas：一个快速入门教程。

第四步：使用 Python 学习机器学习

现在你已经准备好了，可以开始使用 scikit-learn 库来实现机器学习算法。scikit-learn 是一个强大的 Python 机器学习库，涵盖了多种算法。可以参考以下资源：

scikit-learn 简介：由 Jake VanderPlas 编写。
机器学习案例笔记：由 Randal Olson 编写。
模型评价：由 Kevin Markham 编写。

第五步：学习基本的机器学习算法

通过 scikit-learn 库，你可以开始学习一些基本的机器学习算法，如 K 均值聚类、决策树、线性回归和逻辑回归。这些算法是机器学习的核心组成部分，可以帮助你理解和应用各种算法。

K 均值聚类：一个简单且高效的非监督学习算法。
决策树：一种经典的分类算法。
线性回归：用于连续数值预测的算法。
逻辑回归：用于分类任务的回归算法。

第六步：学习高级机器学习算法

当你熟悉了 scikit-learn 库后，可以尝试更复杂的算法，如支持向量机、随机森林和降维算法。这些算法在解决复杂问题时非常有用。

支持向量机：一种高效的分类器。
随机森林：一种强大的集成学习算法。
降维算法：用于减少特征维度，提高模型效率。

第七步：学习深度学习

深度学习是近年来最热门的技术之一。它建立在神经网络的基础上，利用多层网络进行复杂的模式识别。你可以通过以下资源开始学习：

神经网络与深度学习：由 Michael Nielsen 编写的免费在线书籍。
Theano：一个 Python 库，用于定义、优化和评价数学表达式。
Caffe：一个深度学习框架，适用于图像分类和目标检测等任务。

进阶篇

第一步：复习机器学习基础

如果你已经掌握了基础，可以从以下几个方面进一步提升：

关键术语解释：了解机器学习中的关键术语。
统计学分类：了解统计学分类的概念。
机器学习概览：了解机器学习的全貌。

第二步：更多分类算法

除了之前提到的决策树、支持向量机和逻辑回归，还可以学习 k-最近邻、朴素贝叶斯和多层感知器等算法。

k-最近邻：一种简单的分类算法。
朴素贝叶斯：基于贝叶斯定理的分类算法。
多层感知器：一种简单的前馈神经网络。

第三步：更多聚类算法

聚类是一种无监督学习方法，可以用来将数据分组。除了 k-means 算法，还可以学习 DBSCAN 和 EM 算法。

k-means：一种经典的聚类算法。
DBSCAN：基于密度的聚类算法。
EM 算法：一种概率聚类算法。

第四步：更多集成方法

除了随机森林，还可以学习包装、提升和投票等集成方法。

集成学习：了解集成学习的基本概念。
随机森林：一个强大的集成分类器。
包装方法：从同一分类算法构建多个模型。
提升方法：从同一分类算法构建多个模型，逐步提高性能。
投票方法：从不同分类算法构建多个模型，结合结果。

第五步：学习梯度提升

梯度提升是一种流行的集成分类器，常用于 Kaggle 竞赛中。你可以通过以下资源学习梯度提升：

梯度提升概述：了解梯度提升的基本概念。
梯度提升在 Kaggle 中的应用：了解梯度提升在 Kaggle 竞赛中的表现。
XGBoost 库：一个高效的梯度提升实现。

第六步：更多降维方法

降维是一种将数据从高维降到低维的技术。除了主成分分析（PCA），还可以学习线性判别分析（LDA）等方法。

主成分分析：一种统计降维方法。
线性判别分析：一种线性降维方法。

第七步：更多深度学习

如果你希望进一步探索深度学习，可以学习神经网络和深度学习的基本概念，并尝试实现一些常见的神经网络模型，如循环神经网络（RNN）和卷积神经网络（CNN）。

深度学习基础：了解深度学习的基本概念。
TensorFlow：一个强大的深度学习框架，可以实现各种神经网络模型。

图灵汇

责任编辑：： Z科技

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

末尾只需掌握机器 Python 学习资源十四

新华社

2020-06-07

Python 入门机器学习教程

基础篇

进阶篇

机器学习数—总结关于线性代数