在过去几年里,各大科技公司纷纷推出了各种平台,以满足数据科学和机器学习的需求。这些平台试图争夺数据科学家、机器学习项目经理和其他人工智能项目管理与规划者的关注。本文作者Ron Schmelzer是AI咨询公司Cognilytica的执行合伙人兼首席分析师,他认为许多机器学习平台并未达到标准,但仍占据了市场份额。那么,什么样的平台才是合格的机器学习平台呢?
为什么科技公司要推出机器学习平台?这是因为它们需要在人工智能领域有所作为,否则可能会被市场淘汰。然而,这些平台的核心是什么?为什么会有如此激烈的竞争?
关键在于认识到机器学习和数据科学项目与传统应用程序或硬件开发项目的不同。传统开发主要关注系统的性能,而数据科学和机器学习项目则更侧重于数据管理、持续学习和模型迭代。因此,我们需要新的平台来应对这种转变。
谁能简化机器学习模型的创建、训练与迭代,谁就能赢得市场。实际上,机器学习平台和数据科学平台有很多重叠之处,两者都使用数据科学技术和机器学习算法来开发模型。但机器学习平台需要更好地解决超参数设置和调整的问题。
理想的机器学习平台可以帮助机器学习工程师、数据科学家和数据工程师选择最有效的机器学习方法,调整超参数,并在云端或本地的CPU、GPU或TPU集群上部署计算密集型训练任务。此外,它还应提供管理与监控有监督和无监督训练模式的工具。
机器学习项目经理需要的是能够提升效率的工具。但机器学习项目各不相同,有的侧重于对话系统,有的注重预测分析,还有的面向强化学习或自主系统。模型的部署方式也有所不同,有些在云端运行,有些则在边缘设备上部署。
因此,目前市场上出现了四种不同类型的平台:专注于数据科学家和模型构建者需求的平台;侧重于大数据管理和数据工程的平台;面向模型搭建和交互的平台;以及用于模型生命周期管理的平台。开发者需要在这四个方面进行优化,才能实现机器学习平台的真正价值。
数据科学家的任务是从海量数据中提取有用信息,并将业务和运营信息转化为数据和数学语言。他们需要掌握统计学、概率、数学和算法知识,以便从大量信息中获取有价值的洞见。数据科学家负责创建数据假设、运行数据分析,并将结果转化为组织内部易于理解和查看的形式。
因此,一个理想的数据科学平台应该能够帮助构建数据模型、确定合适的假设、测试假设,并促进团队协作。数据科学家通常使用Notebook而不是传统的集成开发环境(IDE)。Notebook提供了一种记录和共享数据研究结果的方法,并允许用户针对不同数据源运行分析,简化结果的可重复性。
然而,如果没有足够的清洁数据,数据科学家的工作就会受到限制。数据工程师需要从各种系统中提取结构化和非结构化数据,这些数据往往不干净,存在字段缺失、数据类型不匹配等问题。因此,一个好的数据科学平台不仅需要提供数据科学功能,还需要具备数据工程能力。
不同规模的科技公司都在致力于开发平台,因为数据科学家和机器学习项目经理需要这些平台来开发、运行、操作和管理企业中的数据模型。未来的机器学习平台可能像现有的操作系统、云环境和移动开发平台一样重要。因此,每个参与者都希望尽可能多地抢占市场份额。
当供应商宣称拥有人工智能或机器学习平台时,我们应该问清楚具体是哪种平台。通过本文,我们可以了解到,市场上存在着多种不同的机器学习平台,每种平台都有其特定的应用场景。因此,我们需要更加谨慎地选择适合自己的平台。
原文链接:
https://www.forbes.com/sites/cognitiveworld/2019/12/12/theres-no-such-thing-as-the-machine-learning-platform/#326f9b96a8dd
通过以上改写,本文旨在提供对机器学习平台的理解,而不直接引用原文内容,确保信息准确性和完整性。