天天快报引荐系统中模型训练及运用流程的标准化
作者头像
  • 电脑爱好者
  • 2019-11-04 16:02:28 3

导读

本次分享的主题为推荐系统中模型训练及应用流程的标准化。推荐系统的核心在于点击率(CTR)预估模型,无论是采用线性模型还是流行的深度学习模型,模型迭代的关键在于特征的选择与处理。因此,如何科学地管理特征变得至关重要。

一. 推荐系统

1. 业务简介

我们的产品天天快报需要高效管理首页及多个子频道的内容推荐。为了达到这一目标,我们需要一个强大的系统来管理所有的特征和模型。

2. 推荐系统流程

推荐系统主要涉及三个步骤:首先,从海量内容中筛选出合适的文章;其次,通过排序模型预测用户对文章的兴趣;最后,综合考虑多样性和运营规则,为用户推荐最佳文章。

3. 常用推荐模型

常用的推荐模型包括LR(逻辑回归)、FM(因子分解机)、DNN(深度神经网络)、W&D(Wide & Deep)、DeepFM、DIN等。推荐系统需要样本收集、特征配置、特征处理、模型训练和模型预测等多个模块。

4. 排序流程图

排序系统的主要流程是从用户ID等特征出发,经过一系列处理后输入到模型中。在线预测时,需要记录特征日志,离线训练时则结合用户行为日志形成训练样本。

二. 推荐系统中模型迭代的痛点

在实际工作中,推荐系统的模型需要不断迭代优化。常见的痛点包括添加新特征、保证在线和离线特征的一致性、特征配置和处理等。

三. 特征处理标准化

为了应对这些痛点,我们设计了一套基于CSV的特征处理标准,涵盖特征定义、处理流程、模型训练和预测等方面。

痛点1:快速添加特征

通过CSV文件定义特征,简化了特征添加的流程,减少了人工编码的工作量。

痛点2:在线、离线特征一致性

通过统一的特征类型标准化,保证了在线和离线特征处理的一致性。

痛点3:特征配置及处理

特征配置包括收集哪些特征以及模型使用哪些特征。我们通过CSV文件管理特征配置,简化了迭代流程。

痛点4:支持多种模型

系统支持多种训练样本格式,如libsvm和稀疏张量数组,方便不同模型的训练。

痛点5:特征监控

通过CSV文件配置监控函数,实时监控特征分布情况,及时发现异常。

痛点6:样本过滤与加权

对样本进行过滤和加权处理,剔除无效样本,提高模型准确性。

四. 总结

我们通过标准化特征处理流程,极大地提升了推荐系统的效率和稳定性。CSV文件成为管理特征配置、处理、模型训练和预测的重要工具,降低了人工编码的工作量,减少了人为错误的可能性。

    本文来源:图灵汇
责任编辑: : 电脑爱好者
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
引荐标准化快报模型运用流程训练天天系统
    下一篇