自从2012年以来,我们可以看到风险投资、会议以及与业务相关的“机器学习”查询的广泛普及——然而,大多数技术主管通常很难判断他们的业务是否已经准备好利用机器学习(ML)来提升业绩。
随着每周都有新的AI流行语出现,掌握哪些应用程序是实际可行的,哪些是炒作或骗局变得越来越困难。
本文将探讨机器学习通常解决的业务问题类别,并提供实际建议,以帮助您在公司内部启动ML项目(即使这将是您首次尝试)。最重要的是,我们会引用真实的业务案例以及我们的AI研究人员和实践者的观点,帮助您了解机器学习是否适合解决您当前的业务挑战。
1. 您需要做出的预测或决策是否足够复杂,以至于需要机器学习?
如果可以通过编写规则或“如果-则”情景完全解决问题,那么可能根本不需要机器学习。此外,如果没有成功的先例可以将机器学习应用于您要解决的具体问题,那么这可能不是进入机器学习领域的最佳途径。
为了帮助您提出自己的应用程序构想,这里列出了一些成熟的机器学习业务案例:
人脸识别:编写一套规则来使机器识别人脸非常困难,但训练算法识别人脸是可行的。许多用于面部检测和识别的工具都是开源的。
垃圾邮件过滤器:某些垃圾邮件过滤器可以通过规则实现,但大多数过滤器是基于每个用户的收件箱内容上下文来过滤的。大量的电子邮件和标记数据构成了良好的监督学习任务。
产品推荐:每个人有不同的偏好,并且偏好会随时间变化。像亚马逊、Netflix和Spotify这样的公司通过评分和参与度预测用户的兴趣。
语音识别:机器学习可以识别语音模式并帮助将语音转换为文本。
实时竞价:机器学习可以帮助识别用户行为模式,并确定哪些广告最有可能与哪个用户相关。
信用卡欺诈检测:只有部分欺诈检测可以使用具体规则,而系统必须适应实时检测这些模式。
2. 您是否有新数据和干净数据?
在数据科学专业人士中,“干净数据胜于大数据”是一个普遍的说法。如果您拥有数年前的大量业务数据,可能今天已经毫无意义,特别是在基本业务流程发生巨大变化的情况下。如果您的数据是非结构化的和脱节的,那么您可能需要进行大量的清理工作,才能开始从中学习。
UBER的机器学习负责人Danny Lange建议,对于刚开始使用机器学习的公司,应从监督学习开始。寻找已经干净且相对较新的数据,并从带有标签的训练数据开始寻找见解。
请注意,在快速变化的领域中,必须有最新的数据。例如,如果您为宠物用品提供送货服务,而您的服务在过去六个月内发生了显著变化,您需要的最新数据要比销售房主保险的公司更多。
3. 您的数据是否有标签,以帮助机器理解?
虽然无监督学习允许在没有标签的情况下进行广泛的数据处理,但通常不建议公司在无监督学习中首次尝试。ML用例的成功往往源自其历史标记数据。例如:
Facebook:在其平台上拥有数百万张已标记的脸部照片,这使得Facebook可以训练算法识别特定的人脸。
Google:其搜索结果是基于点击率、页面加载时间和页面停留时间等因素来评估的。这无法通过规则来实现,而是通过算法根据每日搜索中的实时互动来学习。
4. 您对这个问题的解决方案是否可以接受一定的错误?
机器学习可以被视为一种“技能”,可以根据经验动态调整、适应和发展。因此,机器学习解决方案通常会有一定比例的错误,尤其是在面对新的或变化的刺激时。如果您的任务不允许任何错误,那么机器学习可能不是合适的工具。
不允许任何错误的应用程序示例可能是旨在读取发票或账单金额然后支付这些发票或账单的应用程序。一个字母或数字的差异可能会导致严重的后果。
1. 从优先级高的问题开始,而不是“玩具”问题
许多公司热情地阅读了有关ML的内容,并决定“找到某种应用它的方法”。这导致团队缺乏真正的动力或承诺的资源来推动实际结果。选择一个重要的业务问题,并且看起来很有可能得到解决。
2. 给算法数据,但所有的上下文都需要您提供
机器学习算法虽然擅长识别相关性,但无法理解数据背后的真实情况。以下是“上下文”如何影响开发有效ML解决方案的几个例子:
预测电子商务客户的生命周期价值:仅仅提供关于历史客户生命周期价值的数据是不够的,还需要考虑电话外联计划是否会对未来的销售增长产生影响。
确定医疗恢复时间:数据可能提供给机器,但没有考虑到二级烧伤患者过去接受的更快、更重的护理。
推荐相关产品:过度推荐某个产品,因为该产品在一年前曾被大力推广。
3. 预期修补、调整和调整以找到投资回报率
构建ML解决方案需要在选择算法、选择数据、清理数据以及在实际环境中测试时进行细致的思考和测试。对于独特而复杂的业务用例,没有现成的机器学习解决方案。即使是常见的用例(如推荐引擎、预测客户流失),每个应用都会有所不同,需要迭代和调整。如果一家公司没有进行长时间的修补就投入了ML项目,那么它可能永远不会获得有用的结果。
我们再次联系了Emerj受访者和共识受访者网络,以获取有关在企业中实施机器学习的意见和技巧。以下是引用的集合:
Ben Waber博士:“您不能在业务问题上使用ML真空。确保您得到业务部门负责人的支持,以根据分析做出具体更改。”
Danko Nikolic博士:“企业在使用ML时最常见的错误是,他们认为ML解决方案是一站式过程。找到一个好的ML解决方案是一个反复的过程,涉及研究、实验和错误。”
Charles Martin博士:“在您掌握要做什么之前,避免建立大规模的基础架构。您可以轻松地花费6个月到一年的时间来设置Hadoop和Spark,而看不到任何投资回报。”
Ferris Jumah:“尽快获取数据驱动。机器学习不是免费提供的。您需要围绕数据建立直觉,了解客户,并确保拥有适当的反馈机制。”
共识(在下面引用的数量有限,以及与具有业务头脑的数据科学家进行的其他数十次对话中)是,机器学习不像营销自动化软件那样只是“工具”。任何有良好管理者并获得社区大学学士学位的人都可以选择“持续联络”,甚至可以选择(甚至可以稍作修正并致电支持热线)Marketo或Hubspot并提高公司价值。
除非另有说明,否则定义均来自维基百科:
机器学习(ML):使计算机像人类一样学习和行动的科学,通过以观察和真实交互的方式向计算机提供数据和信息,使其随着时间的推移自主改进。
监督学习:从标记的训练数据中推断功能的机器学习任务。
无监督学习:推断功能以描述来自未标记数据的隐藏结构的机器学习任务。
分类:根据一组训练数据确定新观测值属于哪一组类别的任务。
回归:一种统计技术,用于估计变量之间的关系。
算法:要执行的一系列自成体系的操作步骤,用于执行计算、数据处理和/或自动推理任务。
自然语言处理(NLP):与计算机和人类(自然)语言之间的交互有关的计算机科学、人工智能和计算语言学领域。
希望本文能帮助您更好地理解如何将机器学习应用于您的业务。