LinkedIn招聘引荐系统中的机器学习的威力
作者头像
  • 田瑞辉
  • 2020-02-22 07:48:46 3

导读

本文介绍了机器学习推荐系统在LinkedIn招聘系统中的应用,重点关注不同业务场景中推荐系统所关注的核心目标。

引言

LinkedIn是市场上最受欢迎的招聘平台之一。每天,全球各地的招聘人员都依赖LinkedIn来寻找和筛选符合特定职业机会的求职者。具体来说,LinkedIn招聘系统是一个帮助招聘人员建立和管理人才库的产品,旨在提高成功招聘的机会。LinkedIn招聘系统的效率是由一系列复杂且高效的搜索和推荐算法驱动的,这些算法采用了最先进的机器学习框架和技术。

LinkedIn招聘系统的挑战与目标

众所周知,LinkedIn是持续推动机器学习研究和开发的软件巨头之一。除了拥有世界上最大的数据集之一,LinkedIn还在不断试验前沿的机器学习技术,以提升用户体验。他们的招聘产品需要所有机器学习技能的支持,因为这是一项独特而复杂的挑战。除了处理庞大的数据集,LinkedIn招聘系统还需要处理各种复杂的查询和过滤,并提供与特定条件相关的结果。搜索环境是动态变化的,因此建模机器学习任务变得十分困难。为了实现这一目标,LinkedIn招聘系统设定了三个主要目标:

  1. 相关性:搜索结果不仅需要匹配相关的候选人,还要显示对目标职位感兴趣的人选。
  2. 查询智能:搜索结果不仅要符合特定条件,还要包括相似条件的人选。例如,搜索“机器学习”时,应该包括在技能集中包含“数据科学”的人选。
  3. 个性化:招聘过程中,理想候选人通常基于符合搜索条件的属性来确定。但在某些情况下,招聘系统可能不确定使用哪些条件。个性化搜索结果是任何成功搜索和推荐体验的关键要素。

此外,LinkedIn招聘系统还有第四个目标,即简化推荐体验。为了实现这一目标,LinkedIn对一系列关键目标进行了建模,这些目标是成功招聘的真实目标。例如,接收邮件的数量是衡量搜索和推荐过程有效性的明确指标。

从线性回归到梯度提升决策树

LinkedIn招聘系统的初始搜索和推荐体验基于线性回归模型。尽管线性回归算法易于理解和调试,但它无法在大型数据集中发现非线性关系。为了改善这种体验,LinkedIn决定使用GBDT(梯度提升决策树)将不同的模型组合成一个更复杂的树结构。GBDT具有较大的假设空间,能够很好地处理特征共线性、不同范围的特征以及缺失的特征值等问题。

与线性回归相比,GBDT确实提供了一些实际改进,但仍未能完全解决搜索体验的一些关键问题。例如,在搜索“牙医”时,结果可能会返回带有“软件工程师”头衔的候选人,因为搜索模型倾向于优先选择求职者。为了解决这个问题,LinkedIn增加了一系列基于对称优化技术的上下文感知功能。这种方法扩展了GBDT的对称排序目标,以比较相同上下文中的候选人,并评估哪个候选人更适合当前的搜索上下文。

解决相关性挑战

LinkedIn招聘系统面临的另一个挑战是为应聘者匹配“数据科学家”和“机器学习工程师”等类似职位。仅仅使用GBDT很难实现这种相关性。为了解决这个问题,LinkedIn引入了基于网络嵌入语义相似特征的表示学习技术。在这个模型中,搜索结果将根据查询的相关性补充具有相似标签的候选人。

个性化挑战

个性化是LinkedIn招聘系统面临的最大挑战之一。从概念上讲,个性化可以分为两类:实体级个性化和会话级个性化。实体级个性化侧重于在招聘过程中整合对不同实体的偏好,如招聘人员、联系人、公司和候选人。为了应对这一挑战,LinkedIn采用了一种著名的统计方法——广义线性混合模型(GLMix),它通过推理来改进预测结果。具体来说,LinkedIn的招聘人员使用了一种结合了学习排序功能、树交互功能和GBDT模型评分的架构。将学习到的排序特征作为预训练的GBDT模型的输入,该模型生成编码到树中的交互特征,并为每个数据点生成GBDT模型的评分。然后,应用原始的学习排序特征及其以树交互特征和GBDT模型评分形式的非线性转换,GLMix模型可以实现招聘人员级和联系人级的个性化。

会话级个性化

另一种个性化模型更侧重于会话体验。利用离线学习模型的一个缺点是,当招聘人员检查推荐的候选人并提供反馈时,当前搜索过程没有考虑到反馈。为了解决这个问题,LinkedIn的招聘人员使用了一种称为多臂老虎机的技术来改进不同候选人组的推荐。该架构首先将工作的潜在候选人空间划分为技能组。然后,应用一个多臂老虎机模型,根据招聘人员当前的意图来了解哪一组更可取,并根据反馈更新每个技能组中的候选人排名。

结构

LinkedIn招聘人员的搜索和推荐体验是基于一个名为Galene的专有项目,该项目建立在Lucene搜索堆栈之上。前一节中描述的机器学习模型有助于为搜索过程中使用的不同实体建立索引。

排名模型架构

招聘人员搜索体验的排名模型基于一个具有两个基本层的架构:

  1. L1层:挖掘人才库并对候选人进行评分/排名。在这个层级中,候选人的检索和排序以分布式方式完成。
  2. L2层:细化入围候选人,使用外部缓存以应用更多动态特征。

在该架构中,Galene代理系统将搜索查询请求分配到多个搜索索引分区。每个分区检索匹配的文档,并将机器学习模型应用于检索到的候选人。每个分区对候选人的子集进行排序,然后代理收集排序后的候选人并将其发送给联邦器。联邦器使用附加的排序功能对检索到的候选人进行进一步排序,并将结果交付给应用程序。

总结

LinkedIn是大规模构建机器学习系统的公司之一。LinkedIn招聘人员使用的推荐和搜索技术与不同行业的许多类似系统有着惊人的相关性。LinkedIn工程团队发布了一份详细的幻灯片,为他们构建世界级推荐系统的过程提供了更多见解。

    本文来源:图灵汇
责任编辑: : 田瑞辉
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
引荐威力LinkedIn机器学习招聘系统
    下一篇