本次分享的主题为推荐系统中模型训练及应用流程的标准化。推荐系统的核心在于点击率(CTR)预估模型,无论是采用线性模型还是流行的深度学习模型,模型迭代的关键在于特征的选择与处理。因此,如何科学地管理特征变得至关重要。
我们的产品天天快报需要高效管理首页及多个子频道的内容推荐。为了达到这一目标,我们需要一个强大的系统来管理所有的特征和模型。
推荐系统主要涉及三个步骤:首先,从海量内容中筛选出合适的文章;其次,通过排序模型预测用户对文章的兴趣;最后,综合考虑多样性和运营规则,为用户推荐最佳文章。
常用的推荐模型包括LR(逻辑回归)、FM(因子分解机)、DNN(深度神经网络)、W&D(Wide & Deep)、DeepFM、DIN等。推荐系统需要样本收集、特征配置、特征处理、模型训练和模型预测等多个模块。
排序系统的主要流程是从用户ID等特征出发,经过一系列处理后输入到模型中。在线预测时,需要记录特征日志,离线训练时则结合用户行为日志形成训练样本。
在实际工作中,推荐系统的模型需要不断迭代优化。常见的痛点包括添加新特征、保证在线和离线特征的一致性、特征配置和处理等。
为了应对这些痛点,我们设计了一套基于CSV的特征处理标准,涵盖特征定义、处理流程、模型训练和预测等方面。
通过CSV文件定义特征,简化了特征添加的流程,减少了人工编码的工作量。
通过统一的特征类型标准化,保证了在线和离线特征处理的一致性。
特征配置包括收集哪些特征以及模型使用哪些特征。我们通过CSV文件管理特征配置,简化了迭代流程。
系统支持多种训练样本格式,如libsvm和稀疏张量数组,方便不同模型的训练。
通过CSV文件配置监控函数,实时监控特征分布情况,及时发现异常。
对样本进行过滤和加权处理,剔除无效样本,提高模型准确性。
我们通过标准化特征处理流程,极大地提升了推荐系统的效率和稳定性。CSV文件成为管理特征配置、处理、模型训练和预测的重要工具,降低了人工编码的工作量,减少了人为错误的可能性。