人工智能和机器学习仍然是全球增长的重要领域之一。近年来,越来越多的非专业人士和非人工智能专业的工程师开始学习和应用这些技术,以改进产品。每天都有新的机器学习技术和框架涌现。本文将探讨领英如何利用技术规模化应用,帮助更多的工程师提高机器学习的效率。
近日,领英中国的机器学习研发经理李子在IEEE数据挖掘国际会议上分享了领英如何大规模开展机器学习,介绍了领英的核心产品以及如何利用技术帮助工程师提高机器学习效率。
领英在过去十年中,将人工智能技术应用于各个领域,提升了用户体验。例如,“你可能认识的人”功能帮助用户扩展社交网络;“动态推送”功能让用户及时获取行业资讯;“招聘搜索”功能帮助企业更好地进行招聘;“职位推荐系统”则帮助用户找到更适合的工作机会。这些产品都依赖于机器学习技术。
然而,领英发现,过去每个团队使用自己的技术栈来开发产品,这导致了难以规模化的问题。每个团队使用的工具和技术不同,从逻辑回归到深度学习,从Pig、Hive、Spark到Scalding等。这种多样性使得团队之间的技术共享变得困难。因此,领英希望通过减少负担,让新工程师或开发人员更容易上手。
为了实现机器学习的规模化,领英启动了一个名为“Productive Machine Learning”(高效机器学习)的项目,简称Pro-ML。该项目的目标是将AI工程师的工作效率提高一倍,使他们能够更轻松、更高效地构建模型。领英发现,模型的功能与模型的更新速度密切相关。因此,加快模型迭代速度能够显著提高模型的功能。
Pro-ML采用了分层解决方案,旨在提高模型开发周期的效率,从模型探索和构建到模型训练、部署、运行,再到持续监控模型状态。领英希望自动化所有常规工作,让算法工程师更加专注于创新。
Pro-ML中的两个重要工具贯穿了整个流程:一个是Feature Marketplace,另一个是Health Assurance Layer。在Feature Marketplace,领英利用先进技术生成、共享和管理新特征。特征工程是AI建模的核心,领英有数百名工程师和数万种正在研究的特征。提高工程师生成、共享和管理特征的效率,对于提高整体工作效率至关重要。
Health Assurance Layer在整个开发周期中持续监控模型状态,确保离线特征和在线特征在统计意义上一致,从而确保在线模型的良好性能。一旦检测到异常,Health Assurance Layer会自动提示工程师,以便他们能够迅速进行调试。
建模过程始于对问题的探索。领英构建了集成Pro-ML内核的Jupyter Notebook,帮助工程师逐步进行数据探索、特征选择和模型绘制。Jupyter Notebook由领英的Spark集群提供计算资源,使得工程师无需下载数据即可在线完成工作,提高了工作效率并保护了用户隐私。
为了定义模型,领英还开发了一种领域特定语言(DSL),名为Quasar。Quasar为建模者提供了几乎所有常见的特征转换函数,使得工程师可以专注于新特征或特征组合的实验,而无需编写大量重复代码。Quasar的优势在于,离线训练的模型可以直接部署到线上,大大简化了模型从离线到在线的过渡。
特征工程是AI建模的核心。为了提高效率,领英构建了Feature Marketplace,使工程师能够有效地生成、发现、共享和管理特征。工程师可以将特征共享到Feature Marketplace上供他人使用,也可以通过搜索找到所需特征及其相关信息,如创建者、生成方式、应用场景等。Feature Marketplace还提供了许多实用工具,帮助工程师选择和监控特征。
为了确保离线和在线特征的一致性,领英开发了一个名为Frame的工具,统一了特征生成过程,避免了在线特征波动的问题。在算法方面,领英支持多种算法,如深度学习、决策树算法、Generalized Linear Mixed Model(GLMix)等。领英使用TensorFlow进行深度学习,使用XGBoost进行决策树算法,而GLMix则使用自主研发的Photon库。GLMix模型大幅提升了职位推荐系统的性能,增加了20%的职位请求量。
模型训练和部署完成后,健康保障层提供了一系列工具,用于持续监控和验证模型运行情况。健康保障层确保在线特征可用且更新速度快,一旦发现异常,会自动通知工程师进行调试。
领英的机器学习团队紧密联系产品团队,使得机器学习团队可以与其他专家合作,分享最佳实践。Pro-ML团队围绕五个主要支柱构建,每个支柱支持模型生命周期的一个阶段。这些工程师来自不同的组织,包括产品工程、基础/工具团队和基础设施团队。Pro-ML团队分布在世界各地,包括班加罗尔、欧洲和美国等地。领英有一个指导团队,负责制定项目愿景,并消除摩擦,确保每个支柱能够独立运作。
Pro-ML不仅增加了可以应用人工智能的产品数量,还扩展了可以培训和部署模型的团队数量。此外,它减少了模型选择和部署所需的时长,并使关键领域如健康保障自动化。领英已经花费了一年多的时间改造人工智能,使其保持快速、高效和可操作性,扩展到所有工程领域。这使得工程师有更多时间专注于解决技术难题,利用领英独特的高度结构化数据集找到创新的解决方案。
从2014年开始,领英不断探索中国市场,组建了一支超过100人的本土研发团队。未来,领英将继续依靠AI和大数据技术优化用户体验。如果你有兴趣加入领英中国这支强大的研发团队,请点击下方链接或扫描二维码查看并申请职位!