数据发掘是利用业务知识从数据中提取和解释知识的过程。这些知识可能以自然或人工的方式呈现,并且能够促进业务目标的实现。尽管数据发掘在20世纪90年代才真正形成体系,但它已经成为商业分析中不可或缺的一部分。
数据发掘的起源和发展在很大程度上依赖于集成数据发掘算法平台的进步。尽管数据发掘的实际应用较晚,但CRISP-DM(跨行业数据挖掘标准流程)自20世纪90年代初以来已成为一种标准化流程,广泛应用于数据发掘项目。
本文将介绍数据发掘的九个核心原则,并从理论角度解释数据发掘的过程。本文的目的不是替代CRISP-DM,而是补充其不足,帮助读者更好地理解数据发掘的核心理念。
数据发掘的目标是解决业务问题并达成业务目标。它不仅是一种技术手段,更是一个业务流程。业务目标是数据发掘的核心,没有明确的业务目标,数据发掘就失去了方向。
业务知识不仅是数据发掘的起点,而且在每个阶段都起到关键作用。无论是商业理解、数据理解、数据准备、建模、评估还是实施,业务知识都是不可或缺的。缺乏业务知识,数据发掘过程将无法取得预期效果。
数据预处理是数据发掘中最耗时的部分,通常占据项目时间的50%至80%。数据预处理不仅包括数据获取和清洗,还包括数据转换和格式化。只有高质量的数据才能确保后续分析的有效性。
数据发掘需要不断的实验和尝试,因为没有一种算法适用于所有情况。数据发掘者需要根据具体的问题空间选择或设计最合适的算法。业务目标、相关数据以及数据预处理都是影响因素。
数据中总存在某种形式,即使这些形式不是显而易见的。业务专家通常能够识别出潜在的有价值形式,而数据发掘算法则可以帮助揭示这些形式。
数据发掘不仅仅是技术过程,更是业务过程。通过数据分析,数据发掘者和业务专家能够获得新的洞察,从而更好地理解和解决问题。
数据发掘模型通常用于预测未来行为或结果。这些模型不仅限于分类和回归,还可以用于聚类和关联分析。预测模型的价值在于其能够提供新的见解,而不仅仅是准确的预测。
预测模型的价值不仅体现在其准确性上,还体现在其对业务决策的支持作用。准确的预测不一定带来高的业务价值,反之亦然。
数据发掘发现的形式并不是固定不变的。随着时间的推移,市场、客户行为和竞争环境都在发生变化,这要求数据发掘模型定期更新和优化。
综上所述,数据发掘是一个复杂而多维的过程,涉及多个层面的理解和实践。这九个核心原则不仅有助于数据发掘者更好地理解数据发掘的本质,也为未来数据发掘过程的发展提供了指导。