SIGAI-AI学习交流群旨在为学习者提供一个技术交流与分享的平台。您可以关注我们的微信公众号,回复“芝麻开门”,即可获得入群二维码。
此外,在本公众号中,回复“SIGAI”加上日期,例如“SIGAI0515”,即可获取当期文章的全文下载链接(仅供个人学习使用,未经允许,不得用于商业目的)。
为了帮助参加校园招聘及社会招聘的同学们更好地准备面试,SIGAI曾整理出一系列机器学习和深度学习的面试题,受到广泛好评。应大家的需求,我们特别推出了第二部分的面试题集,希望能帮助大家更好地理解机器学习和深度学习的算法原理及其应用。
随机森林如何降低方差? 随机森林通过平均多个决策树的预测结果来降低方差。如果每棵树的方差相同,那么多棵树的平均值的方差会变得更小。
KKT条件是取得优化问题极值的充分条件还是必要条件? 对于一般问题,KKT条件是取得极值的必要条件,而非充分条件。但对于凸优化问题,KKT条件既是必要条件也是充分条件。SVM属于凸优化问题。
解释维数灾难的概念 当特征数量较少时,增加特征通常会提升算法精度。然而,当特征数量增加到一定程度后,继续增加特征反而会导致算法精度下降。
为什么Logistic回归使用交叉熵作为损失函数? 因为交叉熵是一个凸函数,而欧氏距离不是一个凸函数,因此使用交叉熵作为损失函数可以更容易地找到最优解。
解释hinge loss损失函数的作用 hinge loss用于支持向量机(SVM),如果样本满足约束条件,则损失为零;若不满足,则会产生正的损失值。
GBDT的核心思想是什么? GBDT通过逐步添加决策树来拟合前一棵树的残差。在训练过程中,目标函数通过一阶泰勒展开进行优化,使用梯度下降法训练决策树。
XGBoost的核心思想是什么? XGBoost在GBDT的基础上增加了正则化项,并使用二阶泰勒展开进行优化。
DQN的经验回放机制是什么? DQN通过存储执行动作后的状态转移样本,并从中随机抽取样本来训练Q网络,以此减少训练样本间的相关性并解决样本分布变化的问题。
反卷积的作用是什么? 反卷积,也称作转置卷积,用于实现上采样和近似重构输入图像。在正向计算时,它左乘卷积核的转置矩阵,在反向传播时左乘卷积核本身。
什么是PCA的目标? PCA的目标是最小化重构误差或最大化投影后的方差。
LDA的优化目标是什么? LDA的目标是最大化类间差异与类内差异的比值。
解释神经网络的万能逼近定理 神经网络具有万能逼近能力,只要激活函数选择得当且神经元数量足够,至少有一个隐含层的神经网络可以逼近任意连续函数到任意精度。
softmax回归的目标函数是否为凸函数? softmax回归的目标函数是凸函数,但可能存在多个全局最优解。
为什么SVM需要求解对偶问题? 原问题含有大量难以处理的不等式约束,求解对偶问题更加方便。SVM的原问题满足Slater条件,因此原问题与对偶问题等价。
神经网络是生成模型还是判别模型? 神经网络是一种判别模型,它直接输出类别标签或类后验概率。
Logistic回归是生成模型还是判别模型? Logistic回归也是一种判别模型,它直接输出类后验概率,不涉及类条件概率或联合概率的建模。
Batch Normalization与Group Normalization的区别是什么? Batch Normalization在batch维度上进行归一化,而Group Normalization在channel维度上计算每个group的均值和方差。
什么是GAN中的模型坍塌? 模型坍塌指的是生成的样本变得单一,缺乏多样性。
GAN训练中面临的主要问题是什么? 训练不易收敛和模型坍塌是GAN训练中的两个主要问题。
为什么ShuffleNet效果较好? ShuffleNet通过引入“通道重排”增加了组间信息交换,从而提升了模型效果。
模型压缩的方法有哪些? 模型压缩可以通过优化模型结构(如模型剪枝、模型蒸馏、自动学习简单结构)、参数量化(如将浮点精度量化为FP16、INT8等)等方式实现。
目标检测中的IOU如何计算? IOU是检测结果与Ground Truth的交集除以它们的并集。
如何求解0-1矩阵的连通域? 使用广度优先搜索算法可以求解连通域。
OCR任务中主流的文本序列识别方法是什么? RNN结合CTC是OCR任务中主流的文本序列识别方法。
神经网络结构中哪些部分会有权重共享? 卷积神经网络、递归神经网络和全连接网络的部分会有权重共享。
人脸识别的基本流程是什么? 人脸识别的基本流程包括人脸检测、人脸对齐、人脸特征提取和人脸特征比对。
如何快速计算平面内两个矩形的IOU? 计算两个矩形的交集面积与并集面积之比即可得到IOU。
训练一个包含1000万个类的深度卷积网络可能会遇到什么问题? 训练大型模型可能会面临内存/显存占用过大、模型收敛速度慢等问题。
HMM与CRF的区别是什么? HMM是生成模型,描述的是 ( P(X, Y) = P(X|Y) times P(Y) ),而CRF是判别模型,描述的是 ( P(Y|X) )。HMM需要加入状态概率分布的先验知识,而CRF完全依赖数据驱动。
为什么深度学习中不常用二阶导进行优化? Hessian矩阵在高维情况下非常庞大,计算和存储都存在困难。
mini-batch大小对深度学习的效果有何影响? mini-batch太小可能导致收敛速度慢,太大则容易陷入尖锐的局部极小值,影响泛化能力。
线性回归对数据的假设是什么? 线性回归假设因变量与自变量之间存在线性关系,且同方差、弱外生性、无多重共线性。
什么是共线性?它与过拟合有何关系? 多变量线性回归中,变量之间高度相关会导致回归估计不准确,进而引发过拟合。可以通过排除变量的相关性或加入权重正则化来解决这个问题。
Bias和Variance的区别是什么? Bias衡量了学习算法的期望预测与真实结果的偏离程度,反映算法本身的拟合能力。Variance衡量了训练集变动对学习性能的影响,反映数据扰动的影响。
为什么在实际应用中支持向量机通常使用线性核而不是高斯核? 如果训练样本量很大,高斯核需要计算待预测样本与每个支持向量的内积,计算成本较高。相比之下,线性核只需计算 ( W^TX + b )。
高斯混合模型中各高斯分量的权重之和为何要保证为1? 为了确保该函数是一个概率密度函数,其积分值必须等于1。
介绍beam search算法的原理 Beam search是一种解码算法,每次选择概率最大的几个解作为候选解逐步扩展。
介绍seq2seq的原理 Seq2seq系统由编码器和解码器两部分组成。编码器依次接收输入序列,最后一个数据点输入后,循环层的状态向量作为语义向量传递给解码器,解码器根据该向量进行预测。
介绍CTC的原理 CTC通过引入空白符号和消除连续的相同符号,将RNN原始输出序列映射为最终的目标序列,适用于未对齐的序列数据预测,如语音识别。
介绍广义加法模型的原理 广义加法模型通过多个基函数的和来拟合目标函数,训练时依次确定每个基函数。
为什么常用正态分布来建模随机变量? 正态分布在现实世界中普遍存在,中心极限定理表明,多个独立同分布的随机变量样本之和服从正态分布。