手把手教你做数据发掘 !(附教程&数据源)
作者头像
  • 2019-11-07 09:28:29 2

引言

最近,我学到一个新概念——“认知折叠”,即把复杂的事物简化,让人们可以快速理解和应用。作为数据科学领域的从业者,我们利用数学模型解决实际商业问题,并最终以简单易懂的图表形式呈现给客户。

我在碎片化的时间内对“数据挖掘”这一领域进行了整理,希望在这个碎片化时代,让对此感兴趣的读者能在最短的时间内掌握最核心的知识。

数据挖掘概述

简而言之,数据挖掘是从大量数据中提取有用信息的过程,也被称为数据中的知识发现。

为何需要数据挖掘

随着互联网工具的发展,数据收集和共享的成本大幅下降。我们日常生活中不经意的动作,例如聊天、购物、浏览短视频等,都会产生大量数据。这些数据通常被收集并存储在大型数据库中。然而,缺乏强大的工具,理解这些数据变得非常困难。数据挖掘技术应运而生,它可以从海量数据中提取出有价值的信息,作为决策的重要依据。

数据挖掘的演变过程

正如柏拉图所说,“需求是创造之母”,每一项新技术的诞生都是顺应时代发展的需求。数据挖掘技术也是信息技术自然演化的结果。下表展示了这一演变过程。

数据挖掘的具体步骤

数据挖掘过程通常包括以下几个步骤: - 数据清理:消除噪声和不一致的数据。 - 数据集成:将来自不同来源和格式的数据整合在一起。 - 数据选择:选择需要挖掘的数据。 - 数据变换:将数据转换成适合挖掘的形式,例如汇总或聚集操作。 - 数据挖掘:采用特定的方法和模型进行挖掘。 - 模式评估:评估挖掘结果的模型。 - 知识表示:将挖掘结果以可视化方式展示。

数据挖掘的系统结构

数据挖掘的对象

原则上,数据挖掘可以应用于任何类型的信息存储库及瞬态数据,如数据库、数据仓库、数据集市、事务数据库、空间数据库(如地图)、工程设计数据(如建筑设计)、多媒体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。

数据挖掘任务

数据挖掘功能用于指定数据挖掘任务要找的模型类型。一般而言,数据挖掘任务可分为两类:描述性和预测性。描述性任务描述数据库中数据的一般性质;预测性任务通过对当前数据进行推断,以做出预测。描述性任务包括特征化和区分等。

特征化与区分

以“特征化”为例,数据挖掘系统应当能够生成对某一职位的汇总描述,作为招聘依据。例如,数据挖掘系统可以总结出数据挖掘工程师的一般特征,如计算机相关专业背景、熟悉常用的数据挖掘算法、会使用统计分析工具等。另一方面,“区分”则是指描述优秀数据挖掘工程师与普通工程师的区别。优秀工程师通常具备较强的逻辑思维能力和持续学习的态度,而普通工程师可能仅仅了解常用的数据挖掘算法。

数据挖掘的局限性

尽管数据挖掘技术在大数据时代发挥了重要作用,但仍有其局限性。数据科学家吴军在《数学之美》一书中指出,数学之所以美,是因为其简单性。虽然数学工具可以帮助我们发现规律,但并非所有事物都可以量化。例如,人的思想和互联网未采集到的日常活动等无法量化,这些因素可能导致数据挖掘结果偏差。因此,未来的数据挖掘需要多元化的思考方式,结合纵向深度挖掘和横向扩展多学科知识。

数据挖掘实例

实例准备

为了更直观地展示数据挖掘流程,我将用RapidMiner这款数据挖掘工具来进行实例演示。RapidMiner的特点是无需编程,通过拖拽即可完成分析,非常适合演示数据挖掘的全过程。

RapidMiner简介

RapidMiner是一款预测分析和数据挖掘软件,具有丰富的数据分析和算法功能。它广泛应用于各类商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产管理、资源规划、预测性维护、质量管理、社交媒体监测和情感分析等。

安装RapidMiner

首先,访问RapidMiner官网下载软件。下载完成后,安装即可。

配置RapidMiner

安装完成后,打开软件。由于实例需要进行数据库操作,因此需创建数据库连接。本文使用MySQL数据库作为示例。

数据挖掘实例演示

我们将按照CRISP-DM(数据挖掘标准流程)使用RapidMiner进行数据挖掘实例演示。

商业理解

为了展示完整的数据挖掘流程,我将对一个真实的商业问题进行市场调研,并基于调研结果进行分析。在此过程中,我将介绍自己的一些情况。

数据理解

通过设计一份问卷,我收集了关于宝妈的详细信息,包括姓名、学历、专业、年龄、工作年限、工作岗位、孩子姓名、孩子年龄、孩子性别等。

数据准备

数据准备包括数据收集、清洗和集成。具体步骤如下:

  • 数据收集:通过纸质问卷和腾讯问卷两种方式进行数据收集。
  • 数据清洗:对收集的数据进行清洗,去除无效数据。
  • 数据集成:将清洗后的数据整合到一起。

数据清洗

数据清洗包括去除无效数据、填充缺失值等。在RapidMiner中,通过读取、过滤、转换等步骤,对数据进行清洗和转换。

数据集成

将清洗后的数据整合到一起,为建模做准备。

数据选择

选择用于建模的列,去除不必要的列。

数据变换

将分类数据转换成数值型,便于建模。

离群点分析

分析数据中的离群点,并进行处理。

建模

使用决策树模型对数据进行预测。

模型评价

通过模型评价,选择最佳模型。

结果可视化

展示决策树模型的可视化结果。

通过上述步骤,我们可以清晰地看到数据挖掘的全过程及其结果。希望这些内容对你有所帮助。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数据源手把手发掘教程数据amp
    下一篇