天天快报引荐系统中模型训练及运用流程的标准化

电脑爱好者
2019-11-04 16:02:28 3

+关注

导读

本次分享的主题为推荐系统中模型训练及应用流程的标准化。推荐系统的核心在于点击率（CTR）预估模型，无论是采用线性模型还是流行的深度学习模型，模型迭代的关键在于特征的选择与处理。因此，如何科学地管理特征变得至关重要。

一．推荐系统

1. 业务简介

我们的产品天天快报需要高效管理首页及多个子频道的内容推荐。为了达到这一目标，我们需要一个强大的系统来管理所有的特征和模型。

2. 推荐系统流程

推荐系统主要涉及三个步骤：首先，从海量内容中筛选出合适的文章；其次，通过排序模型预测用户对文章的兴趣；最后，综合考虑多样性和运营规则，为用户推荐最佳文章。

3. 常用推荐模型

常用的推荐模型包括LR（逻辑回归）、FM（因子分解机）、DNN（深度神经网络）、W&D（Wide & Deep）、DeepFM、DIN等。推荐系统需要样本收集、特征配置、特征处理、模型训练和模型预测等多个模块。

4. 排序流程图

排序系统的主要流程是从用户ID等特征出发，经过一系列处理后输入到模型中。在线预测时，需要记录特征日志，离线训练时则结合用户行为日志形成训练样本。

二．推荐系统中模型迭代的痛点

在实际工作中，推荐系统的模型需要不断迭代优化。常见的痛点包括添加新特征、保证在线和离线特征的一致性、特征配置和处理等。

三．特征处理标准化

为了应对这些痛点，我们设计了一套基于CSV的特征处理标准，涵盖特征定义、处理流程、模型训练和预测等方面。

痛点1：快速添加特征

通过CSV文件定义特征，简化了特征添加的流程，减少了人工编码的工作量。

痛点2：在线、离线特征一致性

通过统一的特征类型标准化，保证了在线和离线特征处理的一致性。

痛点3：特征配置及处理

特征配置包括收集哪些特征以及模型使用哪些特征。我们通过CSV文件管理特征配置，简化了迭代流程。

痛点4：支持多种模型

系统支持多种训练样本格式，如libsvm和稀疏张量数组，方便不同模型的训练。

痛点5：特征监控

通过CSV文件配置监控函数，实时监控特征分布情况，及时发现异常。

痛点6：样本过滤与加权

对样本进行过滤和加权处理，剔除无效样本，提高模型准确性。

四．总结

我们通过标准化特征处理流程，极大地提升了推荐系统的效率和稳定性。CSV文件成为管理特征配置、处理、模型训练和预测的重要工具，降低了人工编码的工作量，减少了人为错误的可能性。

图灵汇

责任编辑：：电脑爱好者

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

引荐标准化快报模型运用流程训练天天系统

蔡维

2019-11-04

导读

一． 推荐系统