机器学习的套路是怎样的?
作者头像
  • 2020-05-29 17:06:52 2

校园V计划

在处理成绩时,我们通常会遵循一个特定的框架,那么机器学习的框架又是怎样的呢?

机器学习(Machine Learning)

机器学习,顾名思义,就是让机器能够像人一样学习并作出判断。人们在处理某件事情之前,往往会基于以往的经验和判断来做出决策。在机器学习领域,“经验”以数据的形式存储,并通过各种算法生成“模型”。运行这些模型可以得出解决问题的方法。

第一步:明确任务的性质和类型

简单来说,机器学习任务可以分为几种类型:

  • 二分类任务:例如,预测客户是否会购买某种促销产品。结果只有两种可能——是或否。
  • 回归任务:比如预测明天的气温。结果是一个具体的数值。
  • 聚类任务:将付费用户按照利润贡献、用户年龄、续费次数等因素分成几个群体。需要注意的是,聚类任务与分类任务的结果虽然看起来相似,但聚类任务没有预先定义好的数据集。
  • 推荐任务:根据用户浏览过的新闻,推送其他相关性较高的新闻。
  • 排序任务:根据商品的阅读量、点击量、购买量等指标,决定商品展示的顺序。

第二步:理解数据特性

这一步包括了解数据的类型、含义及取值范围。通过描述性统计分析和可视化分析等手段,探索数据特性。具体包括检查数据类型和缺失值、观察数据随时间的变化趋势、绘制箱型图以了解数据的分布情况(如均值、标准差、最小值、分位数、最大值、众数、中位数等)。

第三步:识别关键特征并进行数据预处理

这一步主要是选择与预测结果高度相关的特征进行建模。具体包括特征选择和特征工程。在特征选择中,要挑选相关系数高的特征,剔除相关系数低的特征。在特征工程中,主要包括删除特征、从现有特征中提取新特征、组合现有特征创建新特征、将分类特征和数值特征离散化等操作。

第四步:模型选择、训练、调参、验证和评估

机器学习算法种类繁多,不同的任务有不同的算法。例如,分类任务可以采用逻辑回归、支持向量机、朴素贝叶斯、决策树、随机森林、感知器、人工神经网络等算法;回归任务可以采用线性回归、多项式回归、逐步回归、岭回归、人工神经网络等算法;聚类任务可以采用K均值聚类、层次聚类、最大期望聚类、基于密度的聚类等算法;推荐系统可以采用协同过滤、深度学习等技术。因此,明确任务性质和类型,并选择合适的算法进行优化或创新,才能确保建模过程顺利进行,并取得最佳效果。

总的来说,机器学习的核心不在于数据建模本身,而在于如何更好地理解和处理数据,针对模型的需求和特点进行数据工程和特征工程,从而将数据以最优的方式特征化。在实际应用中,前两个步骤占据了大约70%的工作量。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
套路机器怎样学习
    下一篇