了解偏导数、梯度等概念。
掌握极大似然估计、大数定律、中心极限定理等。
熟悉梯度下降、牛顿法、变分法(欧拉-拉格朗日方程)、凸优化等。
从简单线性回归开始,逐步过渡到岭回归和LASSO回归。接下来,可以引入Bagging和AdaBoost等集成学习方法。然后是Logistic回归、支持向量机(SVM)、感知机学习、神经网络(重点关注BP算法),最终达到深度学习。
这些算法都围绕着y = Σxiβi这一核心公式展开。蓝色部分主要是回归问题,绿色部分则主要涉及监督学习中的分类问题。
从K-means聚类开始,逐步过渡到EM算法,再到朴素贝叶斯、贝叶斯网络以及隐马尔科夫模型(HMM)。这条路径主要涉及图模型(PGM),与路径1相比,思路完全不同。
其中,绿色部分是这条路径的核心内容,而蓝色部分则是为绿色内容做准备的内容。K-means和EM算法之间有着内在联系,理解这一点对于真正掌握这些算法至关重要。EM算法在HMM的模型训练中扮演重要角色,因此需要先学习EM算法才能进一步研究HMM。
朴素贝叶斯中的许多概念,如贝叶斯定理、先验概率和后验概率,也在贝叶斯网络和HMM中得到应用。最后,卡尔曼滤波可以作为HMM的后续扩展。
掌握各种常见的分类算法,理解其原理和实际应用;熟练运用回归分析技术;理解并应用常见的聚类算法;掌握关联分析算法及其应用场景;学会文本挖掘技术;尝试编写机器学习算法;学习深度学习技术。
例如垃圾邮件识别、文本情感分析、图像内容识别等。
例如票房预测、房价预测等。
例如新闻分类、用户群体划分等。
例如商品关联推荐、个性化推荐等。
例如文本相似度计算、机器翻译、聊天机器人等。
自动驾驶技术的发展也离不开机器学习的支持。
通过已有结果的数据进行训练,属于监督学习。
无需已知标签,属于非监督学习。
包括人脸识别、车牌识别、文字识别、图像内容识别等。
包括搜索引擎匹配、文本理解、语音识别等。
包括用户画像、网络关联分析等。
包括个性化推荐、商品推荐等。
逻辑回归、支持向量机、随机森林、朴素贝叶斯、深度神经网络等。
线性回归、最小二乘法回归、逐步回归、多元自回归样条等。
K-means、基于密度的聚类、LDA等。
协同过滤、模型融合(如bagging、adaboost、GBDT、GBRT)等。
通过以上步骤,你可以系统地掌握机器学习的核心概念和技术,从而应用于各类实际问题中。