IT大数据学习分享:关于机器学习的知识点(1)
作者头像
  • 小晓机器人
  • 2019-12-23 11:15:42 2

作者用超过1.2万字详细介绍了他在学习机器学习过程中遇到的关键知识点。他提到:“入门之后,才真正体会到机器学习的魅力与复杂性。”希望正在阅读这篇文章的你,也能在机器学习领域取得成功。作者:尘恋


预备

机器学习是人工智能的一个分支,也是深度学习的基础。它使计算机能够通过数据学习,从而在特定任务上表现得更加出色。王钰院士曾在2008年的会议上指出,机器学习是根据有限的数据集推导出一个模型,这个模型适用于更广泛的世界。

机器学习的两大驱动力:神经网络和数据挖掘

机器学习的分类:

  • 监督学习:通过带有正确答案的数据集训练算法,使其能够对新数据做出准确预测。
  • 无监督学习:算法尝试识别输入数据之间的相似性,并将其归类,这种方法称为密度学习。
  • 强化学习:介于监督学习和无监督学习之间,算法在未获得正确答案时自行探索和学习,以找到最佳解决方案。
  • 退化学习:借鉴生物学中的退化过程,研究如何在计算机中模拟这一过程,采用适应度的概念,评估当前解的质量。(并非所有机器学习书籍都涵盖退化学习)

机器学习的优点:

  • 泛化能力:即使面对未曾见过的数据,也能给出合理的预测。

监督学习的应用

监督学习包括回归分析和分类任务。

机器学习的过程:

  1. 数据收集与准备
  2. 特征选择
  3. 算法选择
  4. 参数和模型选择
  5. 训练
  6. 评估

专业术语:

  • 输入向量(x):算法的输入数据
  • 突触:连接神经元的加权链接
  • 输出向量(y):算法的输出数据
  • 目标向量(t):监督学习中用于指导算法学习的正确答案
  • 维度:输入向量的数量
  • 激活函数:描述神经元响应输入的方式
  • 误差:衡量网络预测准确性的一个函数
  • 权重空间:表示网络参数的空间,对于高维数据,权重空间非常复杂
  • 维度灾难:随着维度增加,数据变得稀疏,导致算法性能下降

维度与体积的关系

随着维度的增加,单位超球体的体积迅速增大,这会导致数据稀疏,影响算法的效果。

机器学习算法测试

为了评估算法的表现,需要使用测试集。通过对比预测结果与实际目标,可以判断算法是否出现过拟合现象。交叉验证是常用的方法,用于优化模型参数。

混淆矩阵

混淆矩阵用于评估分类算法的准确性,通过计算精度、查准率、查全率等指标,可以全面了解算法的性能。

受试者工作曲线(ROC)

ROC曲线显示了算法在不同阈值下的真正例率与假正例率的关系,曲线下面积(AUC)是评估算法整体性能的重要指标。

贝叶斯法则与损失矩阵

贝叶斯法则用于处理概率问题,而损失矩阵则用于评估分类错误带来的风险。

基本统计概念

协方差是衡量两个变量相关性的指标,而偏差和方差则是评估模型性能的重要因素。

机器学习的基石:神经元、神经网络和线性判别

  • 鲁棒性:指系统在异常情况下仍能正常运行的能力。
  • 神经网络:模仿生物神经网络的结构,通过学习输入数据的模式来进行预测。
  • Hebb法则:描述了神经元之间连接强度变化的规律,即经常一起激活的神经元之间的连接会增强。
  • McCulloch-Pitts神经元模型:简单地模拟了生物神经元的工作机制,但存在一定的局限性。
  • 感知器:历史上最早的神经网络之一,通过调整权重来实现学习功能。

通过上述介绍,希望读者对机器学习有了更深入的理解。

    本文来源:图灵汇
责任编辑: : 小晓机器人
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
学习知识点机器数据关于分享
    下一篇