干货 | 22道机器学习常见面试标题
作者头像
  • hkzl2020
  • 2019-12-13 12:14:50 4

1、有监督和无监督算法的区别?

有监督学习是指利用带有明确分类标记的训练数据来训练模型,以便对未见过的数据进行分类预测。所有分类都是已知的,因此训练样本的不确定性较低。

无监督学习则是处理没有分类标记的训练数据,目的是从数据中挖掘内在的结构和模式。所有分类都是未知的,因此训练样本的不确定性较高。聚类是无监督学习的一个典型例子。

2、支持向量机(SVM)的推导及特性?多分类问题如何处理?

SVM是一种最大间隔分类器,其核心在于找到一个能够最大化几何间隔的超平面,同时考虑样本的误分类次数。SVM可以通过线性核、多项式核和高斯核等方法来处理非线性问题。线性核简单快速但需要数据线性可分;多项式核拟合能力强但容易数值不稳定;高斯核拟合能力强但需要注意过拟合问题。

对于多分类问题,常用的方法有“一对一”、“一对多”和“多对多”。其中,“一对一”方法将N个类别两两配对生成N(N-1)/2个二分类任务;“一对多”方法每次将一个类别作为正例,其余类别作为反例;“多对多”方法则需要特别设计正反例。

3、逻辑回归(LR)的推导及特性?

逻辑回归的优势在于实现简单、计算量小、速度快,适用于小规模数据。缺点是模型简单,容易欠拟合,并且只适用于二分类问题。可以通过一些转换方法将其扩展到多分类问题。

4、决策树的特性?

决策树通过树状结构来进行决策,其特点是需要选择一个属性进行分支,在分支过程中选择信息增益最大的属性。决策树计算简单、可解释性强,适合处理含有缺失值的数据,可以处理无关特征,但容易过拟合,需要通过剪枝来解决。

5、SVM、逻辑回归(LR)、决策树的对比?

SVM既可用于分类也可用于回归,通过核函数可以快速计算。LR实现简单、训练速度快,但模型简单,容易欠拟合。决策树容易过拟合,需要剪枝处理。从优化角度看,SVM使用hinge loss,带L2正则化的LR对应交叉熵损失,AdaBoost对应指数损失。因此,LR对异常值敏感,SVM对异常值不敏感。SVM可以将特征映射到高维空间,但LR不可以。在小数据集情况下,SVM可能优于LR,但LR可以提供概率预测,SVM则不行。

6、GBDT和随机森林的区别?

随机森林采用bagging思想,通过有放回抽样生成多个样本集,每个样本集训练一个决策树,最后集成结果。随机森林在决策树训练过程中引入了随机属性选择。GBDT则基于boosting思想,通过逐步调整样本权重来训练一系列决策树,最终结果是这些树的加权和。GBDT是串行生成的方法,而随机森林是并行生成的方法。

7、如何判断函数是凸还是非凸?什么是凸优化?

凸集是指如果x和y属于某个集合C,并且所有的αx + (1-α)y也在集合C内,那么C是凸集。凸函数是指其定义域是凸集,并且对于任意的x和y,以及0≤α≤1,都有f(αx + (1-α)y) ≤ αf(x) + (1-α)f(y)。如果函数有二阶导数,那么二阶导数大于等于零或者Hessian矩阵半正定,则该函数为凸函数。

8、如何处理类别不平衡问题?

在类别不平衡的情况下,可以通过对训练集进行欠采样或过采样来平衡正负样本比例。此外,还可以通过调整分类器的阈值来改变正负样本的分类边界。例如,可以将阈值设置为大于0.5的值来提高正样本的识别率。另外,还可以通过加权方法来处理类别不平衡问题,即在目标函数中对不同类别的样本给予不同的权重。

9、解释对偶的概念。

一个优化问题可以从原始问题(primal)和对偶问题(dual)两个角度来研究。在强对偶性成立的情况下,对偶问题可以给出原始问题最优值的下界。SVM中通过将原始问题转化为对偶问题来引入核函数的思想。

10、如何进行特征选择?

特征选择是重要的数据预处理步骤,其主要目的是缓解维度灾难问题,并提高模型的泛化能力。特征选择可以通过过滤式、包裹式和嵌入式方法进行。过滤式方法先对数据集进行特征选择,再训练学习器;包裹式方法将最终学习器的功能作为特征子集的评价标准;嵌入式方法将特征选择过程与训练过程融合在一起。

11、为什么会发生过拟合?有哪些方法可以预防或克服过拟合?

过拟合指的是模型在训练集上的表现很好,但在新样本上的表现较差。过拟合的原因通常是模型过于复杂,导致学习了训练数据的噪声和细节。预防过拟合的方法包括增加样本数量、降低模型复杂度、使用正则化技术(如L1和L2正则化)、使用交叉验证、提前停止等。

12、什么是偏差和方差?

偏差衡量了学习算法的期望预测与真实结果之间的偏离程度,描述了学习算法本身的拟合能力。方差衡量了同样大小的训练集变动所导致的学习性能变化,描述了数据扰动带来的影响。噪声表示当前任务上任何学习算法所能达到的期望泛化误差下界,描述了任务本身的难度。偏差和方差通常呈现一种权衡关系,偏差大、方差小表示欠拟合,偏差小、方差大表示过拟合。

13、神经网络的基本原理及其训练方法?

神经网络由单个神经元及其连接构成,最常见的是多层前馈神经网络,包括输入层、输出层和若干隐藏层。BP算法是训练神经网络的经典算法,其本质是梯度下降法和链式法则。

14、介绍卷积神经网络(CNN)及其与深度信念网络(DBN)的区别?

卷积神经网络(CNN)的特点是卷积核和权值共享,通过卷积和池化操作得到不同层次的特征表示。DBN是深度信念网络,每一层是一个受限玻尔兹曼机(RBM),通过无监督逐层训练和BP算法联合训练整个网络。

15、哪些模型使用EM算法求解?为什么不用牛顿法或梯度下降法?

EM算法常用于求解含有隐变量的模型,如高斯混合模型(GMM)和协同过滤。EM算法一定可以收敛,但可能收敛到局部最优。由于求和项随隐变量数量呈指数增长,给梯度计算带来困难。

16、用EM算法推导K-means算法。

K-means算法是高斯混合模型在混合成分方差相等且每个样本仅指派一个混合成分时的特殊情况。在运行之前需要对样本进行归一化处理。K-means中每个样本所属的类可以看作是一个隐变量。在E步中,固定每个类的中心,选择距离最近的类来优化目标函数;在M步中,重新计算每个类的中心,通过优化目标函数得到新的类中心。

17、使用过的聚类算法及其原理?

常用的聚类算法包括K-means算法。K-means算法是一种基于距离的聚类方法,通过迭代优化目标函数,将样本分配到最近的聚类中心。另一种常见的聚类算法是基于密度的DBSCAN算法。DBSCAN算法从样本密度的角度调查样本之间的可连接性,并基于密度可达关系扩展聚类簇。

18、聚类算法中的距离度量有哪些?

聚类算法中的距离度量通常使用闵可夫斯基距离,具体包括曼哈顿距离、欧氏距离和切比雪夫距离。对于离散属性,可以使用VDM(Value Difference Metric)度量。在实际应用中,通常需要对特征进行归一化处理。

19、解释贝叶斯公式和朴素贝叶斯分类。

贝叶斯公式用于计算后验概率。最小化分类错误的贝叶斯最优分类器等价于最大化后验概率。朴素贝叶斯分类器假设属性条件独立,简化了后验概率的计算。通过拉普拉斯平滑技术可以避免出现概率为零的情况。

20、解释L1和L2正则化的作用。

L1正则化通过在代价函数后面加上|w|来促使模型参数稀疏化。L2正则化通过在代价函数后面加上w²来防止过拟合。L1正则化对应拉普拉斯先验,L2正则化对应高斯先验。

21、TF-IDF是什么?

TF-IDF是一种用于评估单词在文档中重要性的方法。TF(词频)表示单词在文档中出现的频率,IDF(逆文档频率)表示单词在语料库中出现的频率的倒数。通过TF-IDF可以筛选出文档的关键字,进而提取文档主题。

22、文本中的余弦距离是什么?有哪些用途?

余弦距离是衡量两个向量夹角的度量方法,其值范围在-1到1之间。余弦距离用于衡量两个向量方向的一致性。在文本分析中,可以使用TF-IDF计算文本向量,通过余弦距离来衡量文本之间的相似度。

    本文来源:图灵汇
责任编辑: : hkzl2020
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
干货面试机器常见标题学习
    下一篇