「收藏」关于机器学习的知识点，全在这篇文章里了

致青春
2020-02-11 13:18:31 3

+关注

导读

本文作者通过超过1.2万字的内容，总结了自己在学习机器学习过程中积累的知识点。希望读者能在机器学习领域取得成就。

00 预备

机器学习的定义

机器学习是人工智能的一个分支，也是深度学习的基础。它使计算机通过学习数据，提高任务执行的准确性。根据王钰院士的观点，机器学习利用有限的数据样本，推测出整体世界的模型。

机器学习的驱动因素

机器学习主要由两个因素推动：神经网络和数据挖掘。

机器学习的分类

机器学习可以分为以下几类： 1. 监督学习：提供带有正确答案的数据集，算法通过学习这些数据，泛化到未知数据。 2. 无监督学习：不提供正确答案，算法试图找出输入数据间的相似性，将其分类。 3. 强化学习：介于监督学习和无监督学习之间，算法在尝试错误中学习。 4. 退化学习：模拟生物退化的学习过程，评估解决方案的好坏。

优点

机器学习的一个重要优势是泛化能力，即在面对未曾见过的数据时仍能给出合理的输出。

监督学习的应用

监督学习包括回归和分类任务。

机器学习过程

机器学习的过程包括： 1. 数据收集 2. 特征选择 3. 算法选择 4. 参数和模型选择 5. 训练 6. 评估

专业术语

输入向量：算法输入的数据。
突触：神经元间的连接权重。
输出向量：算法输出的数据。
目标向量：监督学习中需要学习的正确答案。
权重空间：所有可能的权重组合。
维度灾难：高维度数据导致计算复杂度增加的问题。

机器学习算法测试

算法的成功程度通过预测结果与实际结果的对比来衡量。为了防止过拟合，需要使用测试集进行验证。通常使用50:25:25或60:20:20的数据集划分方法。

混淆矩阵

混淆矩阵用于评估分类效果。其元素表示实际类别与预测类别的匹配情况。

精度指标

真正例（TP）：正确分类为一类的样本数量。
假正例（FP）：错误分类为一类的样本数量。
假反例（FN）：错误分类为另一类的样本数量。
真反例（TN）：正确分类为另一类的样本数量。

精度指标包括： - 敏感率：TP / (TP + FN) - 特异率：TN / (TN + FP) - 查准率：TP / (TP + FP) - 查全率：TP / (TP + FN) - F1分数：2 * (查准率 * 查全率) / (查准率 + 查全率)

受试者工作曲线（ROC）

ROC曲线的横轴为假正例率，纵轴为真正例率，曲线下面积（AUC）表示分类器的整体性能。

数据与概率的转换

贝叶斯法则用于从联合概率和条件概率推导出后验概率。MAP估计用于确定训练数据中最有可能的类别。

损失矩阵

损失矩阵描述了将类别Ci误分为类别Cj的风险。

基本统计概念

协方差：衡量两个变量的相关性。

权衡偏差与方差

偏差-方差困境表明，模型复杂度不一定与性能成正比。偏差指的是模型与数据不匹配的程度，方差指的是模型的不稳定性。

01 神经元、神经网络和线性判别

1. 鲁棒性

鲁棒性指系统在异常条件下仍能正常运行的能力。

2. 神经网络

神经网络模仿生物神经系统的结构和功能，通过学习输入数据来识别模式。

3. Hebb法则

Hebb法则认为，两个神经元同时激活会增强它们之间的连接。

4. McCulloch-Pitts神经元

McCulloch-Pitts模型描述了一个简单的神经元模型，它通过加权输入和阈值来决定是否激活。

5. 感知器

感知器是最早的神经网络模型之一，通过调整权重来学习输入数据的模式。

05 优化和搜索

1. 下山法

下山法用于寻找函数的最小值。常用方法包括线性搜索和信任域方法。

2. Levenberg-Marquardt算法

Levenberg-Marquardt算法用于非线性最小二乘问题，通过动态调整梯度和海森矩阵的平衡来优化参数。

3. 搜索的基本方法

穷举法：检查所有可能性，确保找到全局最优解。
贪心搜索：每次选择局部最优解，但不保证全局最优解。
爬山法：逐步改进当前解，但可能会陷入局部最优解。
模拟退火算法：引入随机性，避免陷入局部最优解，通过逐步降温来优化解。

希望这些内容对你有所帮助。如果你有任何疑问或需要进一步的信息，请随时告诉我。

图灵汇

责任编辑：：致青春

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

知识点机器收藏学习关于文章

朱柯颖

2020-02-11

导读