「AI」17个机器学习的常用算法
作者头像
  • 优博讯
  • 2019-12-09 18:19:58 3

根据数据类型的不同,我们可以采取不同的方法来建模一个成绩。在机器学习或人工智能领域,首先要考虑的是算法的学习方式。常见的学习方式包括监督式学习、非监督式学习、半监督式学习和强化学习。

监督式学习

监督式学习中,输入数据称为“训练数据”,每组训练数据都有明确的标识或结果。例如,在垃圾邮件识别系统中,数据会被标记为“垃圾邮件”或“非垃圾邮件”。监督式学习通过不断调整预测模型,使其预测结果接近实际结果,直至达到预期的准确率。这类学习常用于分类和回归问题。常见的算法有逻辑回归和反向传递神经网络。

非监督式学习

非监督式学习中,数据不带有特定标识,学习模型的目的是推断数据的内在结构。常见的应用场景包括关联规则学习和聚类等。常用的算法有Apriori算法和k-Means算法。

半监督式学习

半监督式学习适用于部分数据已标记、部分未标记的情况。这种学习方式首先需要学习数据的内在结构,然后利用这些结构进行预测。应用场景包括分类和回归。常用的算法有图论推理算法和拉普拉斯支持向量机等。

强化学习

强化学习中,输入数据作为对模型的反馈。模型根据这些反馈不断调整自身。这类学习方式常见于动态系统和机器人控制等领域。常用的算法有Q-Learning和时间差分学习等。

企业数据应用

在企业数据应用中,最常用的模型是监督式学习和非监督式学习。在图像识别等领域,由于存在大量未标记的数据和少量标记数据,半监督式学习成为热门话题。而强化学习更多应用于机器人控制和其他需要系统控制的领域。

常用算法分类

根据算法的功能和方式,可以将算法分类。例如,基于树的算法、基于神经网络的算法等。这里,我们将常用的算法按最容易理解的方式进行分类。

回归算法

回归算法试图通过衡量误差来探索变量之间的关系。常见的回归算法包括最小二乘法、逻辑回归、逐步回归、多元自适应回归样条和局部估计散点平滑等。

基于实例的算法

基于实例的算法通常用于决策问题。这类模型先选取一批样本数据,然后根据某些近似性将新数据与样本数据进行比较,寻找最佳匹配。常见的算法包括K近邻算法、学习矢量量化和自组织映射等。

正则化方法

正则化方法是其他算法(通常是回归算法)的延伸,通过对算法复杂度的调整来优化算法。常见的算法包括Ridge回归、最小绝对收缩选择算子和弹性网络等。

决策树学习

决策树算法根据数据的属性构建决策模型。这类模型常用于处理分类和回归问题。常见的算法包括分类及回归树、ID3、C4.5、随机森林和梯度提升机等。

贝叶斯方法

贝叶斯方法基于贝叶斯定理,主要用于处理分类和回归问题。常见的算法包括朴素贝叶斯、平均单依赖估计和贝叶斯信念网络等。

基于核的算法

基于核的算法中最著名的是支持向量机。这类算法通过将输入数据映射到高维空间来处理分类或回归问题。常见的算法包括支持向量机、径向基函数和支持向量机判别分析等。

聚类算法

聚类算法试图分析数据的内在结构,以便将数据按最大共同点进行分类。常见的算法包括k-Means算法和期望最大化算法等。

关联规则学习

关联规则学习通过寻找大量多元数据集中最有用的关联规则,来解释数据变量之间的关系。常见的算法包括Apriori算法和Eclat算法等。

人工神经网络

人工神经网络模拟生物神经网络,用于处理分类和回归问题。这类算法是机器学习的重要分支,包括感知器神经网络、反向传递算法和Hopfield网络等。

深度学习

深度学习是人工神经网络的发展,近年来备受关注,特别是在处理大规模数据集方面。常见的算法包括受限玻尔兹曼机、深度信念网络、卷积网络和堆叠自编码器等。

降维算法

降维算法试图通过非监督学习方式,以较少的信息归纳或解释数据。这类算法可用于高维数据的可视化或简化数据以便进行监督式学习。常见的算法包括主成分分析、偏最小二乘回归和多维尺度等。

集成算法

集成算法通过结合多个较弱的学习模型来进行整体预测。这类算法包括提升、自助聚合、AdaBoost、堆叠泛化和梯度提升机等。

常见机器学习算法优缺点

朴素贝叶斯

  • 优点:对小规模数据表现好,适合多分类任务,适合增量训练。
  • 缺点:对输入数据的表示敏感。

决策树

  • 优点:计算简单,可解释性强,适合处理缺失属性值的样本,可以处理不相关特征。
  • 缺点:容易过拟合,但随机森林可以减小过拟合现象。

Logistic回归

  • 优点:实现简单,分类速度快,存储资源低。
  • 缺点:容易欠拟合,准确度不高,只能处理二分类问题。

线性回归

  • 优点:实现简单,计算简单。
  • 缺点:不能拟合非线性数据。

KNN算法

  • 优点:思想简单,实际成熟,既可用于分类也可用于回归,可用于非线性分类,准确度高,对数据没有假设,对异常值不敏感。
  • 缺点:计算量大,样本不平衡,需要大量内存。

支持向量机(SVM)

  • 优点:可用于线性/非线性分类,也可用于回归,泛化误差低,易于解释,计算复杂度低。
  • 缺点:对参数和核函数选择敏感,原始SVM只适用于二分类问题。

Boosting

  • 优点:泛化误差低,实现简单,分类准确率高。
  • 缺点:对异常值敏感。

聚类算法

  • 优点:根据聚类思想划分,可以发现数据内在结构。
  • 缺点:聚类效果受初始值影响较大。

以上内容已经根据原文进行了改写,以确保不扭曲原文的核心信息,并提高了文章的紧凑性和可读性。希望这些内容能够满足您的需求。

    本文来源:图灵汇
责任编辑: : 优博讯
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
算法机器常用学习
    下一篇