如何高效的做机器学习项目

这篇文章虽然较早发布，但内容十分实用。作者结合自身经验分享了在机器学习项目中的宝贵心得。作者在完成一个项目时，尽管投入了大量时间和精力，却未能取得预期成果。经过反思，作者认识到，机器学习不仅仅是理论知识的应用，更是一种实践艺术。本文通过一系列技巧和建议，帮助读者提高工作效率和项目成功率。

在进行机器学习任务时，关键在于“行动”。这意味着需要不断移动代码、重命名变量、可视化数据等。然而，长时间盯着电脑屏幕，反复调整参数并不是有效的方法。这样做不仅浪费时间，还容易让人分心，陷入“额外阅读器标签”的陷阱。

因此，作者提出了“10秒法则”：在处理问题时，确保每次计算的时间不超过10秒。这样可以保持专注，避免分心。为了实现这一目标，可以通过抽取数据子集，使其足够小，以便快速运行和调试。这种方法不仅提高了效率，还能保持注意力集中。

为了更好地管理时间，可以采用“时间垃圾邮件”策略。通过优化代码结构，可以显著提升性能。例如，设计代码时，可以考虑如何简化流程，使切换到完整数据集上运行变得更加简便。这样做不仅能提高工作效率，还能增强代码的可维护性。

在处理数据和构建模型的过程中，一定要注重自测。一旦在数据处理管道中出现错误，后续修复起来会非常困难。因此，在数据转换前后都要进行检查，并确保所有操作都有记录。测试是保证模型质量的重要环节，应贯穿整个项目周期。

在解决具体问题时，首先要构建一个简单模型作为基线。这有助于快速发现问题所在，比如数据质量问题或模型设定不当。通过构建简单的线性模型，可以快速评估数据质量和模型表现，从而为后续优化提供方向。

在模型训练初期，频繁调整超参数并不是最佳策略。相反，应更多关注模型结构的设计。通过探索不同的架构，可以发现更有效的解决方案。集成方法（如Bagging和Boosting）往往能带来更好的效果，尤其是在处理复杂问题时。

高效利用键盘，减少鼠标操作，可以显著提高工作效率。鼠标操作速度慢且限制较多，而键盘则更为灵活。尽量使用快捷键，可以大幅提升操作速度和准确性，从而节省大量时间。

拥有高质量的验证集是项目成功的前提条件。通过精心设计验证集，可以确保模型具备良好的泛化能力。最后，作者推荐了一些优质的资源，帮助读者进一步提升技能。

通过以上策略，读者可以更高效地进行机器学习项目，提高整体工作效率和项目成功率。

责任编辑：：投影时代

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2020-02-18

将机器学习推向边缘端，i.MX 8M Plus深度解析