机器学习面试基础知识 & 扩展-01

张绍会
2019-10-16 11:45:12 4

+关注

机器学习面试基础知识 & 扩展-01

本文总结了一些视频教程的内容，并加入了一些额外的知识点，帮助读者更好地理解机器学习的基本原理。

训练/开发/测试集

在构建机器学习模型时，数据集通常分为三部分：训练集、开发集和测试集。一般推荐的比例是6:3:1，但当数据量超过百万时，测试集只需大约1万条记录即可。在处理大量数据时，确保分层抽样的准确性尤为重要。

提示 - 训练集、开发集和测试集的比例建议为6:3:1。 - 当数据量超过百万时，测试集只需约1万条记录即可。 - 必须严格保证分层抽样。

偏向（Bias）/ 方差（Variance）

在忽略噪声的情况下，模型的泛化误差可以分解为偏向和方差两个部分。偏向衡量的是模型预测结果与真实结果之间的偏差，而方差则衡量了相同规模的数据集变化对模型性能的影响。

偏向 - 度量学习算法的预期预测与实际结果的偏离程度，也称为拟合能力。

方差 - 度量了数据扰动对模型性能的影响。

参考资源 - Understanding the Bias-Variance Tradeoff

分类器

在不同的数据集中，模型的表现会有所不同。例如，在训练集中的错误率为1%，而在开发集中的错误率为10%。这种情况下，我们可以判断模型可能存在过度拟合或者欠拟合的问题。

| 数据集 | 错误率 | 状态 | | ------ | ------ | ---- | | 训练集 | 1% | 高方差 | | 开发集 | 10% | 高偏向 | | 训练集 | 15% | 高偏向 | | 开发集 | 16% | 高偏向 | | 训练集 | 15% | 高偏向 | | 开发集 | 30% | 高偏向和高方差 | | 训练集 | 0.5% | 低偏向和低方差 | | 开发集 | 1% | 低偏向和低方差 |

偏向和方差的应用 - 偏向大意味着模型的分类效果不佳。 - 方差大意味着模型容易过拟合，无法很好地泛化。

梯度消逝与梯度爆炸

在训练深度神经网络时，梯度消逝和梯度爆炸是常见的问题。这些问题会导致模型难以收敛或训练不稳定。

欠拟合和过拟合

欠拟合和过拟合是模型训练过程中常见的问题。欠拟合指的是模型在训练集上的表现不佳，而过拟合则是模型在训练集上的表现很好，但在新数据上的表现较差。

过拟合的原因 - 参数过多，模型复杂度过高。 - 数据量相对较少或噪声较多。

解决方法 - 增加训练数据量。 - 使用交叉验证。 - 采用早期停止法。 - 正则化技术，如L1和L2正则化。 - Dropout技术。

交叉验证

交叉验证是一种评估模型性能的技术，通过多次训练和验证来减少过拟合的风险。

简单交叉验证 - 将数据集分为训练集和测试集，多次重复训练和测试过程。

S折交叉验证 - 将数据集随机分为S份，每次选择S-1份作为训练集，1份作为测试集，多次重复训练和测试过程。

留一交叉验证 - 将数据集中的每个样本依次作为测试集，其余样本作为训练集，多次重复训练和测试过程。

早期停止法（Early Stopping）

早期停止法是一种防止过拟合的方法。通过监控模型在验证集上的性能，在性能不再提升时提前终止训练。

原理 - 将数据分为训练集和测试集。 - 每次训练后，使用测试集评估模型性能。 - 如果测试集上的性能优于之前的最佳模型，则保存当前模型。

停止条件 - 权重更新低于某个阈值。 - 预测错误率低于某个阈值。 - 达到预设的迭代次数。

正则化

正则化是一种防止过拟合的技术，通过在损失函数中添加一个正则化项来限制模型的复杂度。

正则化的作用 - 调整模型的复杂度，防止过拟合。

常见的正则化方法 - L0范数：向量中非零元素的个数。 - L1范数：向量中元素绝对值之和。 - L2范数：向量中元素平方和的平方根。

L1和L2范数的区别 - L1范数倾向于产生稀疏解。 - L2范数倾向于使所有权重接近于0，但不为0。

可视化 - TensorFlow可视化工具可以帮助理解正则化的原理。

Dropout

Dropout是一种防止过拟合的技术，通过在训练过程中随机丢弃一些神经元来减少模型的复杂度。

实验 - 在Keras中使用CIFAR-10数据集进行实验，结果显示Dropout为0.2时效果最佳。

代码示例 - 提供了一个简单的100行代码实现的神经网络，展示了激活函数的作用。

参考资料

通过这些知识点的学习，读者可以更好地理解和应用机器学习中的各种技术和概念。

图灵汇

责任编辑：：张绍会

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

基础知识扩展面试机器学习 amp 01

格曲

2019-10-16