聊聊数据发掘竞赛中的套路与深度学习的局限

在寒假期间，我通过参加 Kaggle 的 Zillow Prize 比赛，在数据挖掘和机器学习方面实现了从新手到入门的转变。借此机会，我在知乎平台上总结一下比赛的经验。本文不仅会列举重要的概念，还会对每个概念进行详细的解释。此外，本文主要针对那些已经阅读了不少攻略但仍未能取得显著成绩的读者。

在深度学习领域，虽然取得了不少进展，但一些参赛者在使用深度学习后仍然难以提升成绩。接下来，我将详细介绍整个比赛的流程，并探讨这两个问题。

比赛的主要步骤包括： - 数据预处理 - 特征工程 - 模型训练与选择（这里会讨论深度学习可能存在的局限性） - 模型融合

数据预处理的目的是提高模型的性能和鲁棒性。具体来说，预处理需要完成以下任务： - 提升模型可逼近的下限 - 提高模型的鲁棒性

为了提高模型的性能，可以通过以下方法： - 添加特征 - 对特定领域进行滤波和去噪 - 去除离群点

提高模型的鲁棒性可以通过以下手段： - 对数值型数据中的缺失值进行多种处理 - 对文本数据进行不同粒度的处理 - 对图像数据进行旋转等变换

特征工程包括特征抽取和特征选择。本文重点讨论特征抽取。首先，可以通过业务常识进行特征抽取。例如，在性别分类任务中，直接使用性别特征比其他身高体重数据更为有效。其次，可以抽取非线性特征。例如，通过多项式变换将线性模型应用于非线性关系。此外，也可以利用深度学习和SVM等模型的中间输出作为非线性特征。

在模型训练过程中，合理划分数据集和训练集，平衡样本，进行交叉验证等方法是常见且必要的步骤。本文不再赘述。模型选择方面，机器学习常被称为“玄学”，因为很难通过现象直接定位错误。通常，需要不断添加特征和模型，并进行模型融合。模型训练应遵循先简单后复杂的准则，逐步优化和调整参数。

模型融合的方法有很多种，但首先要绘制误差曲线，确定是否需要进行模型融合。如果一个模型已经完全超越另一个模型，融合的价值就会很低。

参与面向全社会的比赛，不仅可以接触到真实的流程，还能结识来自不同领域的专家，这对知识技能和人脉积累都有极大的帮助。虽然本文并未提供具体的代码，但对于成绩讨论，欢迎在评论区或私信留言。

希望以上内容能对您的网站有所帮助。

责任编辑：：李开复老师铁杆粉丝

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-02-25

2019年Python数据发掘失业前景前瞻