机器学习项目残缺搭建流程及义务清单曝光，记得收藏好

金春彦
2020-07-06 17:16:35 6

在构建机器学习项目的过程中，大多数人往往只关注数据、建模和测试等关键环节，但其实还有很多细节需要考虑，很多步骤需要执行。接下来的内容将重点介绍机器学习项目中必须执行的几个重要任务，帮助大家更好地理解和实施这些步骤。

为了使工作进展更加顺利，我们需要制定详细的工作计划、进度安排和职责清单。这些工具能够确保团队成员明确自己的任务和时间节点，从而有效推动项目的整体进程。在机器学习项目中，职责清单同样不可或缺。它能够帮助我们处理项目中的各种问题，例如准备数据、识别可能出现的问题、创建和调整模型等。

以下是几个步骤，旨在帮助大家顺利完成机器学习项目，并确保每个任务都得到了有效执行。正如阿图尔·加万德在其著作《清单宣言》中提到的那样，人类的知识已经超越了个人能够正确、安全或可靠地运用的能力。因此，一份简洁明了的项目行动任务清单能够显著减轻工作负担，提升工作效率。

每个机器学习项目通常需要执行8至10个步骤，有些步骤可以交错进行。

从宏观角度定义问题
这一步骤是为了全面理解问题的业务背景。它需要解答以下问题：问题的性质（监督学习还是无监督学习，分类还是回归）、可行的解决方案类型、如何评估性能指标、机器学习是否是解决该问题的最佳方法、手动解决方法以及问题背后的假设。
识别数据源并获取数据
根据问题的定义，我们需要明确数据来源，可能包括数据库、数据仓库或审核流程等。对于即将投入使用的应用程序，建议通过开发数据管道实现数据的自动化处理，确保数据持续流入系统。
初步探索数据
对大量数据进行抽样，以便更方便地进行分析。这一步骤包括使用Jupyter笔记本进行数据研究，确定目标变量，识别特征类型，分析特征间的相关性，并通过可视化手段展示每个特征对目标变量的影响。最后，记录所有发现。
进行探索性数据分析以准备数据
基于前一步骤的结果，进一步定义数据转换、清理、特征选择/工程和特征缩放。这包括编写函数来处理数据转换、数据清理、特征选择和缩放。
建立基准模型并探索其他模型以选出最佳模型
创建一个简单的模型作为其他复杂机器学习模型的基准。主要步骤包括使用默认参数训练几种常见的机器学习模型，如朴素贝叶斯、线性回归、支持向量机等。测量并比较各模型的性能，使用交叉验证评估模型，分析最影响模型性能的特征，并多次重复实验以优化模型。
微调选定模型并检查整体方法
这一步骤是实现最终解决方案的关键。主要任务包括使用交叉验证调整超参数，利用随机搜索或网格搜索等自动调整方法找到最佳配置，测试整体方法，尽可能多地使用数据进行测试，并使用保留的测试集检查模型是否存在过拟合或欠拟合现象。
记录代码并传达解决方案
这是一个多方面的工作。我们需要记录代码和整个项目的方法及过程，创建交互式仪表板或演示文稿，撰写博客或报告，记录分析特征、测试不同转换等过程，总结主要成果和未来的应用前景。
在开发环境中部署并监控模型
如果项目需要在实时数据上运行，则应开发Web应用或REST API。具体步骤包括保存训练好的模型，使用Web服务部署模型，连接数据源并设置ETL管道，管理依赖项，使用云平台部署服务，并监控实时数据性能。

请注意，上述步骤可根据项目的复杂程度进行调整。

图灵汇

责任编辑：：金春彦

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

残缺搭建清单义务流程记得机器曝光收藏项目

廖佳玮

2020-07-06

「企业专访」亚马逊云服务AWS：机器学习让企业释放更多力气