为基于树的机器学习模型构建更好的建模数据集的10个小技巧！

Duxes
2019-04-15 13:57:11 1

为了提升模型性能，我们需要注意一些关键步骤。虽然只进行独热编码或将所有缺失值设为零可能是不够的。本文将以两个Kaggle数据集为例，阐述如何改进数据处理过程。

数据集介绍 我们将使用两个Kaggle数据集来展示一些技巧： 1. 俄罗斯联邦储蓄银行房地产市场数据集 - train.csv（链接：https://www.kaggle.com/c/sberbank-russian-housing-market/data） 2. 归属信誉违约风险数据集 - application_train.csv（链接：https://www.kaggle.com/c/home-credit-default-risk/data）

技巧一：特征选择需谨慎 在预测连锁餐厅不同店铺的净支出时，即使“餐厅面积”与净支出的相关性很低，但它与其他特征（如城市）结合时仍可能显示出重要的预测价值。因此，不应仅仅依赖于相关性来选择特征。

技巧二：合理处理缺失值 对于基于树的模型，处理缺失值的方法很重要。例如，在预测糖尿病患病率时，将缺失的年龄数据设为平均值可能比设为0更为合理。对于特定的算法（如XGBoost或LightGBM），可以允许模型自行决定如何处理缺失值。

技巧三：正确编码顺序变量 对于有序分类变量，应将其编码为数字，以便在节点分割时能够更好地反映不同级别之间的关系。例如，在预测癌症风险时，将“糖摄入量”编码为2,1,0（或0,1,2）可能更合适。

技巧四：优化分类变量编码 对于分类变量，可以采用两种常见方法：将它们替换为每个类别的平均值，或者进行独热编码。然而，这两种方法在变量过多时可能效果不佳。因此，可以考虑进一步分组，以减少变量的数量。

技巧五：修正数据中的异常值 在处理数据时，要注意修正那些明显错误的值。例如，在俄罗斯联邦储蓄银行的房地产市场数据集中，“建筑年份”字段可能包含不合理数值，或者“厨房面积”大于“居住面积”。遇到这种情况，应将这些值设为空值或删除这些记录。

技巧六：区分不同结构的数据 在处理数据时，应根据数据的结构进行分组。例如，在俄罗斯联邦储蓄银行的房地产市场数据集中，根据“产品类型”将数据分为投资和自住两类，可以提高模型的准确性。

技巧七：处理高度相关的变量 如果存在多个高度相关的变量，可以选择最重要的特征并舍弃其他特征，以提高模型的可解释性和训练效率。但要注意，这样做可能会损失一定的模型精度。

技巧八：确保数据的独特性 在建立模型时，要确保每条记录都是唯一的。例如，如果使用“姓名”作为唯一标识符，可能会导致重复记录的问题。因此，建议使用更多的信息（如出生日期和社会安全号码）来确保唯一性。

技巧九：警惕奇异的变量分布 当数据中出现异常值或奇异分布时，需要仔细检查数据质量。例如，如果某家医院的医疗费用显著低于其他医院，可能存在数据链接问题。因此，在建模前应对数据进行细致检查。

技巧十：数据不足时的挑战 在缺乏足够数据的情况下，预测任务会变得更加困难。例如，在预测2019年A市房价时，即使我们只有标签数据，也需要确保样本的独立性和分布一致性。否则，模型的预测效果将受到严重影响。

通过以上技巧，可以有效提升基于树的模型的性能和准确性。希望这些技巧能够帮助您在实际应用中取得更好的效果。

图灵汇

责任编辑：： Duxes

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

建模构建模型基于更好机器技巧数据学习

丁伯洋

2019-04-15

机器学习“剧透”大结局：三傻最先领盒饭，龙妈、小恶魔笑到最后