作者 | Rhea Moutafis 译者 | 平川 策划 | 陈思
面对瞬息万变的时代,企业单纯提升用户体验的流畅度与沉浸感已不足以缓解其面临的压力。为优化产品,投入巨资研发改进的机器学习模型,成为了一种可理解的选择。然而,这里存在一个关键问题:企业往往误以为只要投入大量资金在数据科学家和机器学习工程师身上,就能保证取得显著成果。
据VentureBeat报道,大约90%的机器学习模型未能投入实际生产。换言之,数据科学家的工作成果仅有10%能对企业发展产生实际价值。在科技高管普遍相信人工智能将是下一波科技革命的核心背景下,人工智能的应用与部署却并未迅速推进,这并非数据科学家的责任所在。
企业正遭遇前所未有的考验。这里说的并非仅仅是疫情带来的影响或是股市波动。
数据与资源的整合难题:虽然数据科学家的就业市场前景广阔,企业积极招贤纳士,并愿意提供丰厚薪酬,但现实情况是,数据科学家在工作中面临诸多障碍。首先,企业内部结构高度分割,各部门采用不同的数据收集方法、格式、存储位置以及安全与隐私政策,这导致数据获取困难。其次,数据科学家常常需要整合来自不同部门的数据,这一过程复杂且耗时,且时常因数据获取受限而感到困扰。
IT、数据科学与工程间的鸿沟:企业若要减少“信息孤岛”,就需要各部门加强沟通与协作,调整各自目标。然而,IT部门倾向于确保系统稳定运行,而数据科学家则更侧重于实验与创新,这种差异导致沟通困难。此外,工程师可能难以完全理解数据科学家的详细需求,或是因误解而导致实现方式的偏差。因此,能够自主部署模型的数据科学家相较于无法实施的同行更具竞争优势。
模型部署的挑战:扩展模型至实际应用场景并非易事。模型在小型环境中的表现良好,并不代表其在所有场景下都能高效运行。硬件限制、云存储容量不足以及大规模模型性能下降等问题,构成了部署过程中的障碍。数据获取的难度,尤其是公司内部数据结构的割裂,亦是模型部署面临的一大挑战。
重复工作与沟通不畅:企业在机器学习模型部署的过程中,往往存在大量的重复劳动。软件工程师可能依据数据科学家的指示进行实现,而后者又可能自行开展部分工作。这种状况不仅消耗了时间和资源,还可能导致在遇到错误时难以确定责任归属,引发混乱。
高管支持的重要性:虽然多数科技高管坚信人工智能的力量,但他们未必会认同所有的策略与观点。据Algorithmia报道,企业高管中约有三分之一将部署不佳的统计结果归咎于高层支持的缺失。数据科学家需加强商务技能,积极与高管沟通,以获得更广泛的支持与理解。
跨语言与框架的挑战:机器学习领域仍处于发展阶段,不同编程语言和框架之间的兼容性与差异性较大。数据科学家在项目中可能会遇到从Python开始、中间转用R或Julia,甚至使用Docker和Kubernetes进行容器化部署的情况。这种多样性导致项目管理复杂,且目前市场上缺乏足够的专家资源来应对这些挑战。
版本控制与再现性问题:机器学习模型的版本控制尚无成熟方法,数据科学家需持续跟踪修改,但这过程较为繁琐。随着时间推移,数据集的动态变化也使得模型结果的重现性变得困难。为了克服这一难题,业界引入了TFX、Mlflow和Kubeflow等工具,但这些工具仍处于初步发展阶段,且专家资源有限。
面对组织层面的种种障碍,企业不应放弃尝试,而是应采取更为务实的策略。对于刚涉足机器学习领域的公司,建议从一个规模较小、目标明确的项目开始。在项目启动之初,管理者应明确界定项目范围,组建包含数据科学家、工程师、DevOps以及其他关键角色的跨职能团队。
在项目初期,利用第三方服务提供商协助加速进程,如IBM等公司,可以为企业节省宝贵时间。最后,企业应避免盲目追求最先进的技术,而应聚焦于满足当前需求的简单低成本模型。从这类基础模型积累的经验,将有助于后续实现更复杂、更高效的技术革新,最终实现客户满意度的全面提升。
人工智能的广泛应用是未来发展的必然趋势之一,物联网、高级机器人技术与区块链技术等新兴领域同样展现出巨大潜力。虽然变革需要时间,但快速且早先部署模型的公司将有望在这一革命中占据领先地位。