监督学习是指在给定已知分类标签的训练样本基础上进行学习,以便对未知样本进行分类预测。在这种情况下,所有标签都是已知的,因此训练样本的不确定性较低。
无监督学习则是对没有分类标签的训练样本进行学习,旨在发现训练样本中的结构化信息。这里的标签都是未知的,因此训练样本的不确定性较高。聚类是无监督学习的一个典型例子。
SVM是一种最大间隔分类器,它通过几何间隔和样本误分类次数之间的关系来确定分类边界。SVM可以从线性可分的情况逐步推广到特征转换后的双线性问题,并引入核函数(如线性核、多项式核和高斯核)。软间隔允许一定程度的误分类,以适应非线性可分情况。
多分类问题可以通过以下几种方式解决: - 一对一:将N个类别两两配对,生成N(N-1)/2个二分类任务,最终通过投票决定最终分类。 - 一对多:每次将一个类别作为正例,其余类别作为反例,训练N个分类器,测试时选择置信度最高的类别。 - 多对多:若干类别作为正例,若干类别作为反例,需要特别设计正反类。
逻辑回归的优点在于实现简单、计算量小、速度快、占用资源少。但缺点是模型相对简单,在处理复杂问题时容易出现欠拟合,并且只能处理二分类问题,可以通过二元转换为多元或使用softmax回归来解决。
决策树基于树状结构进行决策,类似于人类解决问题的思维方式。它通过选择最优属性进行分支,目的是使节点的纯度不断提高。决策树计算简单、可解释性强,适合处理缺失属性值的样本,可以处理不相关的特征,但容易过拟合,需要通过剪枝或集成方法来解决。信息增益是选择属性的标准之一,但对属性数量较多的情况有所偏好,通常使用信息增益率来解决这个问题。
SVM适用于分类和回归问题,可以通过核函数快速计算,LR实现简单、训练速度快,但模型简单。决策树容易过拟合,需要剪枝。从优化角度看,SVM使用hinge loss,LR对应交叉熵损失,AdaBoost对应指数损失。SVM对异常值不敏感,而LR对异常值敏感。SVM可以将特征映射到高维空间,但LR不行。小数据集中小样本维度高的情况下,SVM可能表现更好,但LR可以预测概率,且不需要归一化处理。对于大数据集,LR更为常用。
随机森林采用bagging思想,通过多次有放回采样生成多个子样本集,然后训练多个基学习器,再进行融合。随机森林在决策树训练过程中引入了随机属性选择,以增强随机性。GBDT采用Boosting思想,通过错误更新样本权重,每次迭代生成一个新的弱学习器,最终形成一个强学习器。随机森林是并行化方法,而GBDT是串行化方法。
凸集是指如果x、y属于某个集合C,并且任意的λx + (1-λ)y也属于C,则C是凸集。如果一个函数在其定义域上是凸集,并且对于任意的x、y和λ,都有f(λx + (1-λ)y) ≤ λf(x) + (1-λ)f(y),则该函数是凸函数。如果函数具有二阶导数,那么如果其二阶导数大于等于零或Hessian矩阵半正定,则该函数是凸函数。
类别不平衡问题常见于正样本数量较少的情况,例如肿瘤检测。线性分类器在处理不平衡样本时,一般通过调整阈值来提高正样本的识别率。具体方法包括: - 对负样本进行欠采样; - 对正样本进行升采样; - 基于原始训练集进行学习,在预测时调整阈值。
一个优化问题可以从两个角度进行研究,一个是原始问题,另一个是对偶问题。对偶问题通常给出原始问题最优解的下界。在强对偶条件下,对偶问题的最优解可以提供原始问题的最优解。SVM中通过将原始问题转换为对偶问题来引入核函数的思想。
特征选择是重要的数据预处理过程,目的是缓解维数灾难和降低学习任务的复杂度。冗余特征虽然可以推导出来,但在某些情况下仍可能发挥作用。特征选择可分为子集搜索和子集评价两个过程。常见的特征选择方法有: - 过滤式:先选择特征,再训练学习器; - 包裹式:直接将最终学习器性能作为特征选择标准; - 嵌入式:将特征选择过程与训练过程相结合,如L1正则化。
过拟合指的是学习器在训练集上表现很好,但在新样本上表现较差。欠拟合则是指对训练样本的泛化能力较差。过拟合的原因包括模型复杂度过高、训练样本不足等。预防和克服过拟合的方法包括: - 增加样本数量; - 对样本进行降维; - 降低模型复杂度; - 使用先验知识(如L1、L2正则化); - 应用交叉验证; - 提前停止训练。
泛化误差可以分解为偏差的平方、方差和噪声之和。偏差衡量学习算法期望预测与真实结果之间的偏离程度,反映了学习算法的拟合能力;方差衡量相同大小训练集变动所导致的学习性能变化,反映了数据扰动的影响;噪声反映了学习任务本身难度。一般来说,训练程度越强,偏差越小,方差越大。
神经网络由单个神经元及其间的连接组成,常见的多层前馈神经网络包括输入层、隐藏层和输出层。BP算法是训练神经网络最著名的方法,基于梯度下降和链式法则。
CNN的特点是使用卷积核和权共享,通过卷积和池化操作提取不同层次的特征。DBN是一种深度信念网络,由多个RBM堆叠而成,通常先进行无监督逐层训练,再通过BP算法进行有监督训练。
EM算法常用于求解含有隐变量的模型,如高斯混合模型(GMM)和协同过滤。K-means算法也可以视为EM算法的一种特殊情况。EM算法保证收敛,但可能收敛到局部最优。由于隐变量的存在,EM算法在计算梯度时更加简便。
K-means算法是高斯混合模型在混合成分方差相等且每个样本仅指派一个混合成分时的特殊情况。K-means算法通过迭代更新每个样本所属的类别中心来优化目标函数。在E步中,固定类别中心,选择最近的类别;在M步中,重新计算类别中心。
常用的聚类算法包括K-means。聚类结果可以通过内部指标和外部指标评估。密度聚类算法如DBSCAN,基于样本密度来确定聚类。DBSCAN通过设定邻域参数,找到核心对象和密度可达的对象,从而构建聚类。
聚类算法中的距离度量常用闵可夫斯基距离,包括曼哈顿距离、欧氏距离和切比雪夫距离。对于离散属性,可以使用VDM(Value Difference Metric)。距离度量需满足非负性、同一性、对称性和三角不等性。
贝叶斯公式: [ P(C|X) = frac{P(X|C)P(C)}{P(X)} ] 最小化分类错误的贝叶斯最优分类器等价于最大化后验概率。朴素贝叶斯分类器假设属性条件独立,通过计算后验概率来分类。常用平滑方法如拉普拉斯修正来避免概率为零的情况。
L1正则化在代价函数后加上 (lambda sum |wi|),促使模型参数稀疏;L2正则化在代价函数后加上 (lambda sum wi^2),使模型参数分布较为稠密。两者都起到一定的正则化作用,防止过拟合。
TF-IDF是一种文本特征提取方法,通过计算词频(TF)和逆文档频率(IDF)来评估词语的重要性。TF-IDF可以帮助提取文档的关键字,有效区分频繁出现但不重要的词汇和罕见但重要的词汇。
余弦相似度是衡量两个向量夹角余弦值的一种方法,范围在-1到1之间。值为1表示两个向量完全同向,值为0表示正交,值为-1表示完全反向。通过TF-IDF计算文档的关键词向量,利用余弦相似度可以衡量文档之间的相似度,用于信息检索和推荐系统。