机器学习 学习道路图
作者头像
  • 柯冬梅
  • 2019-10-29 07:51:00 0

一、基础知识

微积分

了解偏导数、梯度等概念。

概率论与数理统计

掌握极大似然估计、大数定律、中心极限定理等。

最优化方法

熟悉梯度下降、牛顿法、变分法(欧拉-拉格朗日方程)、凸优化等。

二、路径1

从简单线性回归开始,逐步过渡到岭回归和LASSO回归。接下来,可以引入Bagging和AdaBoost等集成学习方法。然后是Logistic回归、支持向量机(SVM)、感知机学习、神经网络(重点关注BP算法),最终达到深度学习。

这些算法都围绕着y = Σxiβi这一核心公式展开。蓝色部分主要是回归问题,绿色部分则主要涉及监督学习中的分类问题。

三、路径2

从K-means聚类开始,逐步过渡到EM算法,再到朴素贝叶斯、贝叶斯网络以及隐马尔科夫模型(HMM)。这条路径主要涉及图模型(PGM),与路径1相比,思路完全不同。

其中,绿色部分是这条路径的核心内容,而蓝色部分则是为绿色内容做准备的内容。K-means和EM算法之间有着内在联系,理解这一点对于真正掌握这些算法至关重要。EM算法在HMM的模型训练中扮演重要角色,因此需要先学习EM算法才能进一步研究HMM。

朴素贝叶斯中的许多概念,如贝叶斯定理、先验概率和后验概率,也在贝叶斯网络和HMM中得到应用。最后,卡尔曼滤波可以作为HMM的后续扩展。

四、技能要求

掌握各种常见的分类算法,理解其原理和实际应用;熟练运用回归分析技术;理解并应用常见的聚类算法;掌握关联分析算法及其应用场景;学会文本挖掘技术;尝试编写机器学习算法;学习深度学习技术。

五、应用场景

分类任务

例如垃圾邮件识别、文本情感分析、图像内容识别等。

回归任务

例如票房预测、房价预测等。

聚类任务

例如新闻分类、用户群体划分等。

关联分析任务

例如商品关联推荐、个性化推荐等。

文本挖掘任务

例如文本相似度计算、机器翻译、聊天机器人等。

自动驾驶

自动驾驶技术的发展也离不开机器学习的支持。

六、机器学习分类

监督学习

通过已有结果的数据进行训练,属于监督学习。

非监督学习

无需已知标签,属于非监督学习。

七、热门应用

计算机视觉

包括人脸识别、车牌识别、文字识别、图像内容识别等。

自然语言处理

包括搜索引擎匹配、文本理解、语音识别等。

社交网络分析

包括用户画像、网络关联分析等。

推荐系统

包括个性化推荐、商品推荐等。

八、典型算法

分类算法

逻辑回归、支持向量机、随机森林、朴素贝叶斯、深度神经网络等。

回归算法

线性回归、最小二乘法回归、逐步回归、多元自回归样条等。

聚类算法

K-means、基于密度的聚类、LDA等。

降维算法

协同过滤、模型融合(如bagging、adaboost、GBDT、GBRT)等。

九、工具与环境

Python

  • 数据处理:Pandas、Numpy、Scipy
  • 可视化:Matplotlib
  • 机器学习:Scikit-learn、LibSVM、Keras/TensorFlow
  • 自然语言处理:NLTK、IPython Notebook

R

  • 机器学习:Scikit-learn、LibSVM、Keras/TensorFlow
  • 自然语言处理:NLTK、IPython Notebook

Java

  • WEKA Machine Learning Workbench
  • Massive Online Analysis (MOA)
  • MEKA
  • Mallet

C++

  • mlpack
  • Shark

大数据相关工具

  • Hadoop
  • Spark

操作系统

  • Linux
  • Windows 下推荐使用Anaconda

十、工作流程

  1. 抽象问题:明确问题是分类、回归还是聚类。
  2. 获取数据:收集相关数据。
  3. 特征处理与选择:进行数据清洗、归一化、特征选择等。
  4. 模型训练与调优:调整算法参数,优化模型性能。
  5. 模型诊断:评估模型性能,解决过拟合和欠拟合问题。
  6. 模型融合:结合多个模型提高性能。
  7. 上线运行:部署模型到生产环境。

十一、总结

通过以上步骤,你可以系统地掌握机器学习的核心概念和技术,从而应用于各类实际问题中。

    本文来源:图灵汇
责任编辑: : 柯冬梅
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
学习道路机器
    下一篇