Spark MLlib机器学习—四大类算法笔记

Spark 从 2.0 版本开始，基于 RDD API 开发的机器学习算法库逐渐进入维护模式。现在，在使用 Spark 的机器学习功能时，推荐使用基于 DataFrame API 实现的算法库。

该库位于 org.apache.spark.mllib 包内，详细文档可在这里查阅。

该库位于 org.apache.spark.ml 包内，具体文档可在这里查阅。

Spark 中的机器学习算法主要分为四大类：分类算法、回归算法、推荐算法和聚类算法。

分类算法是一种监督学习方法，用于预测目标属于某一类别（如二分类或多分类）。

应用场景包括： - 渣滓邮件分类（是/否） - 性别预测（男/女） - 广告点击预测（是/否） - 水果类别预测（西瓜、香蕉、苹果、梨）

回归算法用于预测连续值。

应用场景包括： - 某天的气温预测（如：4-25） - 某天的订单预测 - 股票涨跌幅度预测

聚类算法是一种无监督学习方法，用于根据对象特征进行分类。

聚类算法与分类算法的主要区别在于缺乏历史可靠数据。例如，对于性别预测，可以根据头发长度、胡须、喉结等特征将其分类；而对于外星人分类，则需要研究其特征，如眼睛、皮肤颜色、身高、特殊能力等。

集成学习算法通过结合多个机器学习模型来进行预测，并最终合并结果。

希望以上内容能够满足您的需求。如果有进一步的问题或需要其他帮助，请随时告知。

责任编辑：：服博士

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-12-08

机器学习如何停止特征选择？