IT大数据学习分享：关于机器学习的知识点（1）

小晓机器人
2019-12-23 11:15:42 2

+关注

作者用超过1.2万字详细介绍了他在学习机器学习过程中遇到的关键知识点。他提到：“入门之后，才真正体会到机器学习的魅力与复杂性。”希望正在阅读这篇文章的你，也能在机器学习领域取得成功。作者：尘恋

预备

机器学习是人工智能的一个分支，也是深度学习的基础。它使计算机能够通过数据学习，从而在特定任务上表现得更加出色。王钰院士曾在2008年的会议上指出，机器学习是根据有限的数据集推导出一个模型，这个模型适用于更广泛的世界。

机器学习的两大驱动力：神经网络和数据挖掘

机器学习的分类：

监督学习：通过带有正确答案的数据集训练算法，使其能够对新数据做出准确预测。
无监督学习：算法尝试识别输入数据之间的相似性，并将其归类，这种方法称为密度学习。
强化学习：介于监督学习和无监督学习之间，算法在未获得正确答案时自行探索和学习，以找到最佳解决方案。
退化学习：借鉴生物学中的退化过程，研究如何在计算机中模拟这一过程，采用适应度的概念，评估当前解的质量。（并非所有机器学习书籍都涵盖退化学习）

机器学习的优点：

泛化能力：即使面对未曾见过的数据，也能给出合理的预测。

监督学习的应用

监督学习包括回归分析和分类任务。

机器学习的过程：

数据收集与准备
特征选择
算法选择
参数和模型选择
训练
评估

专业术语：

输入向量（x）：算法的输入数据
突触：连接神经元的加权链接
输出向量（y）：算法的输出数据
目标向量（t）：监督学习中用于指导算法学习的正确答案
维度：输入向量的数量
激活函数：描述神经元响应输入的方式
误差：衡量网络预测准确性的一个函数
权重空间：表示网络参数的空间，对于高维数据，权重空间非常复杂
维度灾难：随着维度增加，数据变得稀疏，导致算法性能下降

维度与体积的关系

随着维度的增加，单位超球体的体积迅速增大，这会导致数据稀疏，影响算法的效果。

机器学习算法测试

为了评估算法的表现，需要使用测试集。通过对比预测结果与实际目标，可以判断算法是否出现过拟合现象。交叉验证是常用的方法，用于优化模型参数。

混淆矩阵

混淆矩阵用于评估分类算法的准确性，通过计算精度、查准率、查全率等指标，可以全面了解算法的性能。

受试者工作曲线（ROC）

ROC曲线显示了算法在不同阈值下的真正例率与假正例率的关系，曲线下面积（AUC）是评估算法整体性能的重要指标。

贝叶斯法则与损失矩阵

贝叶斯法则用于处理概率问题，而损失矩阵则用于评估分类错误带来的风险。

基本统计概念

协方差是衡量两个变量相关性的指标，而偏差和方差则是评估模型性能的重要因素。

机器学习的基石：神经元、神经网络和线性判别

鲁棒性：指系统在异常情况下仍能正常运行的能力。
神经网络：模仿生物神经网络的结构，通过学习输入数据的模式来进行预测。
Hebb法则：描述了神经元之间连接强度变化的规律，即经常一起激活的神经元之间的连接会增强。
McCulloch-Pitts神经元模型：简单地模拟了生物神经元的工作机制，但存在一定的局限性。
感知器：历史上最早的神经网络之一，通过调整权重来实现学习功能。

通过上述介绍，希望读者对机器学习有了更深入的理解。

图灵汇

责任编辑：：小晓机器人

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

学习知识点机器数据关于分享

花生壳每日谈

2019-12-23

预备