机器学习算法和开发流程

金融快报
2019-11-24 19:49:16 1

+关注

上一篇文章介绍了特征工程，接下来我们将进入机器学习的新篇章。本文旨在帮助大家更深入地理解机器学习。机器学习的核心任务是什么？它与算法有何关联？如何找到合适的算法应用于具体的场景？机器学习的开发流程又是怎样的？

首先需要理解几个关键点

机器学习的组成

机器学习主要由三部分构成：算法是核心，数据和计算是基础。

机器学习程序员的角色

程序员不应过分纠结于算法本身，也不必惧怕复杂的算法。大多数复杂的算法设计工作由专业的算法工程师完成。我们的任务包括：

分析大量数据
分析具体业务
运用常见的算法
进行特征工程、参数调优和优化

对于初学者来说，机器学习算法可能会让人感到困惑。但其实我们只需要了解算法的基本原理及其适用场景，不必自己开发算法，只需知道如何运用即可。

机器学习程序员应如何做

程序员应当学会分析问题，明确机器学习算法的应用目的，掌握算法的基本思想，学会用相应的算法解决问题，并能够利用现有的库或框架来处理实际问题。

机器学习算法

判别标准

机器学习算法分为监督学习和无监督学习。监督学习是指从输入数据中学习或建立一个模型，并依据该模型推测新的结果。输入数据包含输入特征值和目标值。目标值可以是连续值（回归）或有限个离散值（分类）。例如，通过身高、体重、发长等特征值判断性别。

数据类型

数据可分为离散数据和连续数据。离散数据是整数且不能再细分，如汽车数量、人口数量等。连续数据可以取任意数值，如长度、时间、重量等，通常包含小数部分。

监督学习与无监督学习

监督学习

监督学习通过输入数据学习或建立一个模型，并依此推测新的结果。输入数据包含特征值和目标值。根据目标值的不同，可以进行分类或回归。

无监督学习

无监督学习则是通过输入数据学习或建立一个模型，并依此推测新的结果。输入数据只包含特征值，例如对1000个样本进行分析。

分类与回归

分类

分类是在监督学习中当输入变量取有限个离散值时，预测问题变为分类问题。最基础的分类是二分类，即判断是非，从两个类别中选择一个作为预测结果。

回归

回归则用于预测输入变量和输出变量之间的关系，输入是连续值。例如，预测房价、股票走势等。

机器学习开发流程

原始数据：
- 明确需求，了解问题背景（重要）
- 根据数据类型选择合适的模型
数据预处理：
- 使用Pandas处理数据（处理缺失值、合并表格等）
特征工程：
- 区分分类问题或回归问题
选择合适的算法：
- 构建模型：算法+数据
模型评估：
- 确定模型效果是否符合要求（如准确率需达到95%）
- 如果效果不佳，可尝试更换算法或参数，甚至回到特征工程阶段重新处理
上线应用：
- 通常以API的形式提供给其他开发者使用

未来我们会继续发布更多关于机器学习的技术文章，有兴趣的朋友可以关注我的文章，了解最新的人工智能动态。

图灵汇

责任编辑：：金融快报

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

算法流程机器开发学习

钟玲莉

2019-11-25