「AI」17个机器学习的常用算法

优博讯
2019-12-09 18:19:58 3

根据数据类型的不同，我们可以采取不同的方法来建模一个成绩。在机器学习或人工智能领域，首先要考虑的是算法的学习方式。常见的学习方式包括监督式学习、非监督式学习、半监督式学习和强化学习。

监督式学习

监督式学习中，输入数据称为“训练数据”，每组训练数据都有明确的标识或结果。例如，在垃圾邮件识别系统中，数据会被标记为“垃圾邮件”或“非垃圾邮件”。监督式学习通过不断调整预测模型，使其预测结果接近实际结果，直至达到预期的准确率。这类学习常用于分类和回归问题。常见的算法有逻辑回归和反向传递神经网络。

非监督式学习

非监督式学习中，数据不带有特定标识，学习模型的目的是推断数据的内在结构。常见的应用场景包括关联规则学习和聚类等。常用的算法有Apriori算法和k-Means算法。

半监督式学习

半监督式学习适用于部分数据已标记、部分未标记的情况。这种学习方式首先需要学习数据的内在结构，然后利用这些结构进行预测。应用场景包括分类和回归。常用的算法有图论推理算法和拉普拉斯支持向量机等。

强化学习

强化学习中，输入数据作为对模型的反馈。模型根据这些反馈不断调整自身。这类学习方式常见于动态系统和机器人控制等领域。常用的算法有Q-Learning和时间差分学习等。

企业数据应用

在企业数据应用中，最常用的模型是监督式学习和非监督式学习。在图像识别等领域，由于存在大量未标记的数据和少量标记数据，半监督式学习成为热门话题。而强化学习更多应用于机器人控制和其他需要系统控制的领域。

常用算法分类

根据算法的功能和方式，可以将算法分类。例如，基于树的算法、基于神经网络的算法等。这里，我们将常用的算法按最容易理解的方式进行分类。

回归算法

回归算法试图通过衡量误差来探索变量之间的关系。常见的回归算法包括最小二乘法、逻辑回归、逐步回归、多元自适应回归样条和局部估计散点平滑等。

基于实例的算法

基于实例的算法通常用于决策问题。这类模型先选取一批样本数据，然后根据某些近似性将新数据与样本数据进行比较，寻找最佳匹配。常见的算法包括K近邻算法、学习矢量量化和自组织映射等。

正则化方法

正则化方法是其他算法（通常是回归算法）的延伸，通过对算法复杂度的调整来优化算法。常见的算法包括Ridge回归、最小绝对收缩选择算子和弹性网络等。

决策树学习

决策树算法根据数据的属性构建决策模型。这类模型常用于处理分类和回归问题。常见的算法包括分类及回归树、ID3、C4.5、随机森林和梯度提升机等。

贝叶斯方法

贝叶斯方法基于贝叶斯定理，主要用于处理分类和回归问题。常见的算法包括朴素贝叶斯、平均单依赖估计和贝叶斯信念网络等。

基于核的算法

基于核的算法中最著名的是支持向量机。这类算法通过将输入数据映射到高维空间来处理分类或回归问题。常见的算法包括支持向量机、径向基函数和支持向量机判别分析等。

聚类算法

聚类算法试图分析数据的内在结构，以便将数据按最大共同点进行分类。常见的算法包括k-Means算法和期望最大化算法等。

关联规则学习

关联规则学习通过寻找大量多元数据集中最有用的关联规则，来解释数据变量之间的关系。常见的算法包括Apriori算法和Eclat算法等。

人工神经网络

人工神经网络模拟生物神经网络，用于处理分类和回归问题。这类算法是机器学习的重要分支，包括感知器神经网络、反向传递算法和Hopfield网络等。

深度学习

深度学习是人工神经网络的发展，近年来备受关注，特别是在处理大规模数据集方面。常见的算法包括受限玻尔兹曼机、深度信念网络、卷积网络和堆叠自编码器等。

降维算法

降维算法试图通过非监督学习方式，以较少的信息归纳或解释数据。这类算法可用于高维数据的可视化或简化数据以便进行监督式学习。常见的算法包括主成分分析、偏最小二乘回归和多维尺度等。

集成算法

集成算法通过结合多个较弱的学习模型来进行整体预测。这类算法包括提升、自助聚合、AdaBoost、堆叠泛化和梯度提升机等。

常见机器学习算法优缺点

朴素贝叶斯

优点：对小规模数据表现好，适合多分类任务，适合增量训练。
缺点：对输入数据的表示敏感。

决策树

优点：计算简单，可解释性强，适合处理缺失属性值的样本，可以处理不相关特征。
缺点：容易过拟合，但随机森林可以减小过拟合现象。

Logistic回归

优点：实现简单，分类速度快，存储资源低。
缺点：容易欠拟合，准确度不高，只能处理二分类问题。

线性回归

优点：实现简单，计算简单。
缺点：不能拟合非线性数据。

KNN算法

优点：思想简单，实际成熟，既可用于分类也可用于回归，可用于非线性分类，准确度高，对数据没有假设，对异常值不敏感。
缺点：计算量大，样本不平衡，需要大量内存。

支持向量机(SVM)

优点：可用于线性/非线性分类，也可用于回归，泛化误差低，易于解释，计算复杂度低。
缺点：对参数和核函数选择敏感，原始SVM只适用于二分类问题。

Boosting

优点：泛化误差低，实现简单，分类准确率高。
缺点：对异常值敏感。

聚类算法

优点：根据聚类思想划分，可以发现数据内在结构。
缺点：聚类效果受初始值影响较大。

以上内容已经根据原文进行了改写，以确保不扭曲原文的核心信息，并提高了文章的紧凑性和可读性。希望这些内容能够满足您的需求。

图灵汇

责任编辑：：优博讯

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

算法机器常用学习

陈丽慧

2019-12-10

监督式学习

非监督式学习

半监督式学习

强化学习

企业数据应用

常用算法分类

回归算法

基于实例的算法

正则化方法

决策树学习

贝叶斯方法

基于核的算法

聚类算法

关联规则学习

人工神经网络

深度学习

降维算法

集成算法

常见机器学习算法优缺点

朴素贝叶斯

决策树

Logistic回归

线性回归

KNN算法

支持向量机(SVM)

Boosting

聚类算法

python机器学习API引见12: K近邻算法——KNeighborsClassifier