「收藏」关于机器学习的知识点,全在这篇文章里了
作者头像
  • 致青春
  • 2020-02-11 13:18:31 3

导读

本文作者通过超过1.2万字的内容,总结了自己在学习机器学习过程中积累的知识点。希望读者能在机器学习领域取得成就。


00 预备

机器学习的定义

机器学习是人工智能的一个分支,也是深度学习的基础。它使计算机通过学习数据,提高任务执行的准确性。根据王钰院士的观点,机器学习利用有限的数据样本,推测出整体世界的模型。

机器学习的驱动因素

机器学习主要由两个因素推动:神经网络和数据挖掘。

机器学习的分类

机器学习可以分为以下几类: 1. 监督学习:提供带有正确答案的数据集,算法通过学习这些数据,泛化到未知数据。 2. 无监督学习:不提供正确答案,算法试图找出输入数据间的相似性,将其分类。 3. 强化学习:介于监督学习和无监督学习之间,算法在尝试错误中学习。 4. 退化学习:模拟生物退化的学习过程,评估解决方案的好坏。

优点

机器学习的一个重要优势是泛化能力,即在面对未曾见过的数据时仍能给出合理的输出。

监督学习的应用

监督学习包括回归和分类任务。

机器学习过程

机器学习的过程包括: 1. 数据收集 2. 特征选择 3. 算法选择 4. 参数和模型选择 5. 训练 6. 评估

专业术语

  • 输入向量:算法输入的数据。
  • 突触:神经元间的连接权重。
  • 输出向量:算法输出的数据。
  • 目标向量:监督学习中需要学习的正确答案。
  • 权重空间:所有可能的权重组合。
  • 维度灾难:高维度数据导致计算复杂度增加的问题。

机器学习算法测试

算法的成功程度通过预测结果与实际结果的对比来衡量。为了防止过拟合,需要使用测试集进行验证。通常使用50:25:25或60:20:20的数据集划分方法。

混淆矩阵

混淆矩阵用于评估分类效果。其元素表示实际类别与预测类别的匹配情况。

精度指标

  • 真正例(TP):正确分类为一类的样本数量。
  • 假正例(FP):错误分类为一类的样本数量。
  • 假反例(FN):错误分类为另一类的样本数量。
  • 真反例(TN):正确分类为另一类的样本数量。

精度指标包括: - 敏感率:TP / (TP + FN) - 特异率:TN / (TN + FP) - 查准率:TP / (TP + FP) - 查全率:TP / (TP + FN) - F1分数:2 * (查准率 * 查全率) / (查准率 + 查全率)

受试者工作曲线(ROC)

ROC曲线的横轴为假正例率,纵轴为真正例率,曲线下面积(AUC)表示分类器的整体性能。

数据与概率的转换

贝叶斯法则用于从联合概率和条件概率推导出后验概率。MAP估计用于确定训练数据中最有可能的类别。

损失矩阵

损失矩阵描述了将类别Ci误分为类别Cj的风险。

基本统计概念

  • 协方差:衡量两个变量的相关性。

权衡偏差与方差

偏差-方差困境表明,模型复杂度不一定与性能成正比。偏差指的是模型与数据不匹配的程度,方差指的是模型的不稳定性。


01 神经元、神经网络和线性判别

1. 鲁棒性

鲁棒性指系统在异常条件下仍能正常运行的能力。

2. 神经网络

神经网络模仿生物神经系统的结构和功能,通过学习输入数据来识别模式。

3. Hebb法则

Hebb法则认为,两个神经元同时激活会增强它们之间的连接。

4. McCulloch-Pitts神经元

McCulloch-Pitts模型描述了一个简单的神经元模型,它通过加权输入和阈值来决定是否激活。

5. 感知器

感知器是最早的神经网络模型之一,通过调整权重来学习输入数据的模式。


05 优化和搜索

1. 下山法

下山法用于寻找函数的最小值。常用方法包括线性搜索和信任域方法。

2. Levenberg-Marquardt算法

Levenberg-Marquardt算法用于非线性最小二乘问题,通过动态调整梯度和海森矩阵的平衡来优化参数。

3. 搜索的基本方法

  • 穷举法:检查所有可能性,确保找到全局最优解。
  • 贪心搜索:每次选择局部最优解,但不保证全局最优解。
  • 爬山法:逐步改进当前解,但可能会陷入局部最优解。
  • 模拟退火算法:引入随机性,避免陷入局部最优解,通过逐步降温来优化解。

希望这些内容对你有所帮助。如果你有任何疑问或需要进一步的信息,请随时告诉我。

    本文来源:图灵汇
责任编辑: : 致青春
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
知识点机器收藏学习关于文章
    下一篇