机器学习算法和开发流程
作者头像
  • 金融快报
  • 2019-11-24 19:49:16 1

上一篇文章介绍了特征工程,接下来我们将进入机器学习的新篇章。本文旨在帮助大家更深入地理解机器学习。机器学习的核心任务是什么?它与算法有何关联?如何找到合适的算法应用于具体的场景?机器学习的开发流程又是怎样的?

首先需要理解几个关键点

机器学习的组成

机器学习主要由三部分构成:算法是核心,数据和计算是基础。

机器学习程序员的角色

程序员不应过分纠结于算法本身,也不必惧怕复杂的算法。大多数复杂的算法设计工作由专业的算法工程师完成。我们的任务包括:

  1. 分析大量数据
  2. 分析具体业务
  3. 运用常见的算法
  4. 进行特征工程、参数调优和优化

对于初学者来说,机器学习算法可能会让人感到困惑。但其实我们只需要了解算法的基本原理及其适用场景,不必自己开发算法,只需知道如何运用即可。

机器学习程序员应如何做

程序员应当学会分析问题,明确机器学习算法的应用目的,掌握算法的基本思想,学会用相应的算法解决问题,并能够利用现有的库或框架来处理实际问题。

机器学习算法

判别标准

机器学习算法分为监督学习和无监督学习。监督学习是指从输入数据中学习或建立一个模型,并依据该模型推测新的结果。输入数据包含输入特征值和目标值。目标值可以是连续值(回归)或有限个离散值(分类)。例如,通过身高、体重、发长等特征值判断性别。

数据类型

数据可分为离散数据和连续数据。离散数据是整数且不能再细分,如汽车数量、人口数量等。连续数据可以取任意数值,如长度、时间、重量等,通常包含小数部分。

监督学习与无监督学习

监督学习

监督学习通过输入数据学习或建立一个模型,并依此推测新的结果。输入数据包含特征值和目标值。根据目标值的不同,可以进行分类或回归。

无监督学习

无监督学习则是通过输入数据学习或建立一个模型,并依此推测新的结果。输入数据只包含特征值,例如对1000个样本进行分析。

分类与回归

分类

分类是在监督学习中当输入变量取有限个离散值时,预测问题变为分类问题。最基础的分类是二分类,即判断是非,从两个类别中选择一个作为预测结果。

回归

回归则用于预测输入变量和输出变量之间的关系,输入是连续值。例如,预测房价、股票走势等。

机器学习开发流程

  1. 原始数据

    • 明确需求,了解问题背景(重要)
    • 根据数据类型选择合适的模型
  2. 数据预处理

    • 使用Pandas处理数据(处理缺失值、合并表格等)
  3. 特征工程

    • 区分分类问题或回归问题
  4. 选择合适的算法

    • 构建模型:算法+数据
  5. 模型评估

    • 确定模型效果是否符合要求(如准确率需达到95%)
    • 如果效果不佳,可尝试更换算法或参数,甚至回到特征工程阶段重新处理
  6. 上线应用

    • 通常以API的形式提供给其他开发者使用

未来我们会继续发布更多关于机器学习的技术文章,有兴趣的朋友可以关注我的文章,了解最新的人工智能动态。

    本文来源:图灵汇
责任编辑: : 金融快报
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
算法流程机器开发学习
    下一篇