200 个工具分析机器学习十年:出路未卜、工程师是核心
作者头像
  • 施米德智能门窗
  • 2020-06-27 18:07:00 5

【CSDN 编者按】在过去的十年里,人工智能和机器学习领域经历了飞速的发展。近年来,各种工具的数量呈现爆发式增长,机器学习也从学术研究转向了实际应用。本文作者,硅谷一家初创公司的计算机科学家Chip Huyen,收集并分类了202个机器学习工具,总结出两大关键观点:

  1. 开源已经成为行业的标准,任何新兴公司都需要与现有的开源工具竞争。
  2. 如果你必须在人工智能专家和工程师之间选择,那么请优先选择工程师

以下是经过改写的内容:


为了更全面地了解当前的机器学习和人工智能工具,并预测它们的未来趋势,我整理了所有能找到的相关资源。这些资源包括:

  • 全栈深度学习指南(https://github.com/alirezadir/Production-Level-Deep-Learning)
  • LF AI基金会全景图(https://landscape.lfai.foundation/)
  • 人工智能与数据全景图(http://dfkoz.com/ai-data-landscape/)
  • 媒体报道的众多AI初创公司
  • 我在Twitter(https://twitter.com/chipro/status/1202815757593108480)和LinkedIn(https://www.linkedin.com/posts/chiphuyen_machinelearning-machinelearningproduction-activity-6608605129010753536-bdZ7)收到的反馈
  • 朋友、网友、风投等分享的内容

经过筛选,我最终列出了202个机器学习工具。完整列表可在以下链接中查看:https://docs.google.com/spreadsheets/d/1OV0cMh2lmXMU9bK8qv1Kk0oWdc_Odmu2K5sOULS9hHQ/。如果有遗漏的工具,请告知我。

免责声明

这份列表是在2019年整理的,过去6个月内市场可能有所变化。一些科技巨头提供的工具并未一一列出。例如,Amazon Web Services提供了超过165种服务。此外,许多不知名的公司或已经消失的公司并未被纳入分析。

本文分为六个部分:

  1. 概述
  2. 机器学习的历史
  3. 机器学习的未来
  4. 机器学习运维(MLOps)面临的挑战
  5. 开源与开放核心
  6. 总结

概述

创建一个机器学习产品,一般需要以下四个步骤:

  1. 项目立项
  2. 数据处理
  3. 建模与训练
  4. 提供产品服务

根据这些步骤,我将机器学习工具进行了分类。虽然很多工具可以用于多个步骤,但每种工具都有其最擅长的部分。有些工具甚至可以涵盖所有步骤,这类工具被归为“多功能工具”。

机器学习的历史

我整理了这些工具的发布时间,包括开源项目的首次提交时间,以及公司成立的时间。通过这些数据,绘制了每年工具发布的数量图。数据显示,随着深度学习的兴起,2012年后工具数量开始迅速增加。

  • 2012年前:机器学习工具主要集中在建模和训练上,一些早期的框架至今依然流行(如Scikit-Learn)。
  • 2012-2015年:随着数据驱动方法的应用,数据处理工具的数量显著增加。
  • 2016年至今:随着大量数据和模型的增长,机器学习变得越来越实用,催生了更多的工具。

机器学习的未来

目前有许多人工智能初创公司,它们大多将机器学习应用于产品开发,而非工具开发。尽管如此,市场上只有少数专门提供机器学习工具的公司。与传统软件相比,机器学习工具仍然较少。例如,寻找一个机器学习测试工具相对困难。

机器学习运维(MLOps)面临的挑战

许多传统软件开发工具也可用于机器学习产品,但机器学习产品面临独特的挑战,需要专门的工具解决。

  • 监控:如何识别数据分布的变化?
  • 数据标注:如何快速标注新数据?
  • 持续集成/持续交付:如何确保每次修改都能顺利运行?
  • 部署与服务:如何打包并发布新模型?
  • 模型压缩:如何使模型适合客户设备?
  • 推理优化:如何提高推理速度?
  • 边缘设备:如何在低成本设备上加速模型运行?
  • 隐私保护:如何在保护用户隐私的同时使用数据?

这些挑战需要专门的工具来解决,例如Dessa、Snorkel、Argo、OctoML、Xnor.ai、TensorRT、Coral SOM、PySyft等。

开源与开放核心

在202个工具中,有109个是开源软件。即使不是开源的,很多工具也会附带一些开源组件。开源的好处包括透明、协作和灵活性。然而,开源并不意味着免费或不盈利。开源工具的维护成本很高,需要商业支持。例如,Google通过推广TensorFlow吸引更多用户使用其云服务。开源已经成为行业标准,新兴公司很难找到可行的商业模式。

总结

关于人工智能泡沫是否会破灭,人们意见不一。目前,自动驾驶是人工智能投资的主要方向,但仍未实现完全自主驾驶。一些人认为投资者可能会失去信心,Google暂停了机器学习团队的招聘,Uber解雇了一半的人工智能团队。然而,我相信机器学习不会消失,只是有能力进行机器学习研究的公司会越来越少,但提供现有工具的公司将越来越多。

如果你必须在人工智能专家和工程师之间选择,那么请优先选择工程师。工程师更容易学习人工智能知识,而人工智能专家则需要具备更强的工程技能。如果你是一名优秀的工程师,并致力于构建机器学习工具,我会非常感激你。


希望这些改写后的文本能符合您的需求。

    本文来源:图灵汇
责任编辑: : 施米德智能门窗
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
未卜出路核心机器工程师工具分析学习200
    下一篇