机器学习实际运用:机器学习算法的运用场景分别是什么?
作者头像
  • 烽火法援
  • 2020-07-09 15:24:59 6

拿到一份数据后,若想从中挖掘出有价值的信息,首先要全面了解这份数据,即数据探查。数据探查可以从多个角度进行,比如了解数据的类型、大小、分布等属性,为接下来的算法选择和场景抽象做好准备。以下是几个重要的数据探查维度:

数据量的大小

大数据是机器学习的基础,数据量的多少直接影响机器学习算法的效果。这里的“数据量”主要指数据条数,而非存储空间的大小。通常情况下,机器学习算法的数据源以矩阵形式呈现,数据量与条数成反比。大量数据有助于算法收敛和模型优化。不过,不同算法对数据量的需求各不相同,线性算法与树形结构算法对数据量的要求也会有所差异。此外,数据的维度也会影响所需的数据量。

数据质量和完整性

数据质量高低往往取决于数据是否完整、是否存在缺失值或乱码。机器学习算法需要高质量的数据来进行各种计算,如矩阵分解等。如果数据质量不高,包含大量缺失值或乱码,这样的数据被称为“脏数据”,需要进行大量的数据清洗工作。数据清洗包括数据提取、转换和加载等步骤,目的是提高数据质量,减少后续算法运行中的问题。

字段类型

流入机器学习算法的数据通常存储在数据库中,数据库字段包括整型、字符型、双精度浮点数和单精度浮点数等。不同的算法对数据类型有不同的要求,例如文本分析需要字符型数据,逻辑回归需要数值型数据,而随机森林等树形结构算法则兼容字符型和数值型数据。

是否包含目标变量

在机器学习项目中,数据是否包含目标变量是决定算法选择的重要因素。目标变量的存在与否影响着后续算法是采用监督学习还是无监督学习。如果没有目标变量,可以通过ETL操作生成目标变量,这对算法选择非常重要。

以上四个方面是数据探查的核心内容。通过数据探查,数据工程师可以更好地了解数据,提前掌握数据质量,规避潜在风险。数据探查还包括其他细节,如方差、标准差、最大值、最小值等统计指标,这些指标对后续的特征工程和算法调试具有指导意义。

场景抽象

在实际应用中,客户经常希望将现有的数据转化为实际业务场景,例如电商平台的商品推荐、健康领域的疾病预测、社交网络中的人物关系分析等。机器学习可以应用于多种场景,包括二分类、多分类、聚类和回归等。

商品推荐

电商平台利用机器学习技术提高商品推荐的准确性。商品推荐本质上是一个二分类问题,通过分析用户的点击、收藏和购买行为来判断用户是否会购买某一商品。

疾病预测

随着人口老龄化趋势的加剧,疾病预防成为一个重要议题。机器学习可以帮助预测疾病的发生,例如癌症预测可以视为一个多分类问题,通过分析不同阶段的症状来预测疾病的发展。

人物关系分析

在社交网络中,人物关系可以通过通话记录等数据进行分析。通话次数和时长可以用来衡量人物之间的关系紧密程度,从而构建关系图谱。此外,还可以通过人群属性数据进行聚类分析,通过股票历史数据进行回归分析等。

场景抽象是数据挖掘的关键步骤,只有明确了业务场景和需求,才能正确地搭建整个实验流程。场景抽象需要具备两点能力:一是对业务有深刻的理解;二是对算法逻辑有一定的认识。

算法选择

在将业务逻辑抽象成算法场景时,需要明确具体的业务场景类型,例如二分类、多分类、聚类或回归等。根据机器学习算法的训练方式,可以将算法分为监督学习、半监督学习、无监督学习和强化学习四类。

确定算法范围

首先,通过数据探查了解数据类型,选择合适的算法。其次,判断数据是否包含目标变量,从而选择监督学习或无监督学习算法。最后,根据具体业务场景选择合适的分类、聚类或回归算法。

多算法尝试

通过确定算法范围,可以大致确定算法类型。为了找到最佳算法,可以通过数据分布选择合适的算法,并尝试多种算法以确定效果最好的那一个。不同数据适合不同的算法,因此需要尝试多种组合。

多视角分析

在选定算法后,还需考虑算法的鲁棒性、复杂度、资源消耗等因素。此外,算法的调参和优化成本也需要评估,以确保算法的实用性和可维护性。

以上是算法选择的一些基本原则,通过这些原则可以找到最适合业务场景的算法。

本章小结

本章介绍了数据挖掘的第一步——场景解析。场景解析是对业务场景进行反思的过程,通过将业务逻辑抽象成数学公式,再选择合适的算法。在数据探查阶段,还需要关注数据的质量,以便提前发现潜在问题。场景解析是数据挖掘的基础,考验的是数据工程师对业务的理解。

本文节选自《机器学习实际运用》一书,该书分享了作者多年的机器学习算法商业化实践经验,涵盖了机器学习的发展历程、算法理论、平台工具和行业案例等内容。

    本文来源:图灵汇
责任编辑: : 烽火法援
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
运用机器学习别是算法场景实际什么
    下一篇