手把手教你做数据挖掘 (1)(附教程&数据源)
作者头像
  • lxx1994x
  • 2022-12-20 19:06:18 6

数据挖掘知识及应用

引言

近年来,我在学习过程中接触到了一个新概念——“认知折叠”。它指的是将复杂的事物简化成易于理解的形式,使得人们不需要关注其中的细节也能轻松使用。作为数据科学领域的从业者,我们的主要任务就是运用数学模型解决实际的商业决策问题,并最终将这些复杂的概念转化为客户容易理解的图表。

在碎片化时代,我尝试将“数据挖掘”的基础知识进行“折叠”,以便有兴趣学习数据科学的读者能在短时间内掌握最关键的内容。

一、什么是数据挖掘

简而言之,数据挖掘是从大量数据中提取知识的过程,也称为数据中的知识发现。

二、为什么需要数据挖掘

随着互联网工具的不断发展,信息的共享和协作成本大幅降低。我们每天在手机上进行的许多日常活动(如聊天、购物、刷短视频、看新闻等)都会产生大量的数据。这些数据通常被存储在大型数据库中,如果没有强大的工具,理解和利用这些数据变得非常困难。数据挖掘技术的出现解决了这一问题,它可以从海量数据中提取出有价值的信息,从而为决策提供重要依据。

三、演化过程

正如柏拉图所说,“需要是发明之母”。每一项新技术的诞生都是顺应时代的需要。数据挖掘也是信息技术自然演化的结果。下表展示了数据挖掘技术的发展历程。

四、数据挖掘的具体步骤

许多人将数据挖掘视为“数据中的知识发现”,以下是其具体步骤:

  1. 数据清理:去除数据中的噪声和不一致性。
  2. 数据集成:将来自不同来源和格式的数据合并在一起。
  3. 数据选择:确定用于挖掘的数据。
  4. 数据变换:将数据转换为适合挖掘的形式,例如汇总或聚集操作。
  5. 数据挖掘:应用挖掘方法和建模技术。
  6. 模式评估:评估挖掘结果的模型。
  7. 知识表示:通过可视化等方式展示挖掘结果。

五、数据挖掘的系统结构

六、对何种数据进行挖掘

理论上,数据挖掘可以应用于任何类型的信息存储库和瞬态数据(如数据流),包括数据库、数据仓库、数据集市、事务数据库、空间数据库(如地图)、工程设计数据(如建筑设计)、多媒体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。

七、挖掘任务

数据挖掘功能用于指定数据挖掘任务要找的模型类型。数据挖掘任务通常可分为两类:描述和预测。描述性挖掘任务描述数据库中数据的一般性质;预测性挖掘任务则是对当前数据进行推断,以做出预测。

描述性挖掘任务的例子包括特征化和区分。特征化是指挖掘系统应能生成关于特定职位(如数据挖掘工程师)的概括性描述。区分则指生成优秀数据挖掘工程师与普通工程师之间的对比描述。

预测性挖掘任务包括关联分析、分类和预测、聚类分析、离群点分析和趋势分析等。

八、挖掘什么模式的数据

数据挖掘的目标是寻找易于理解、有效、有用、新颖且客观度量的数据模式,这些模式对用户具有价值。

九、数据挖掘的局限性

尽管数据挖掘在大数据时代具有重要作用,但其仍存在一些局限性。例如,虽然数据量庞大且异构数据种类繁多,但并非所有事物都能数据化,如人类思维和未被采集的数据,这些因素可能导致挖掘结果偏差或不可用。因此,未来的数据挖掘需要结合多学科知识,采用多元化的思维。

十、数据挖掘工具——RapidMiner

为了使读者更直观地了解数据挖掘流程,我选择了RapidMiner作为示例工具。RapidMiner是一款预测性分析和数据挖掘软件,以其拖拽操作、无需编程、快速运算等特点著称,适用于各种商业关键问题的解决。

十一、RapidMiner工具简介

RapidMiner是一款广泛应用于商业分析的软件,其特点包括拖拽操作、无需编程、运算速度快等。它具有丰富的数据挖掘分析和算法功能,可用于解决各种商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等。

十二、RapidMiner安装

为了使用RapidMiner,你需要访问其官方网站下载安装包。官网地址是 https://rapidminer.com/get-started/。下载完成后,只需点击安装即可。

安装完成后,可以通过桌面快捷方式打开软件。由于我们的实例涉及数据库操作,需要创建一个数据库连接。这里假设你已安装了MySQL数据库。在软件界面左侧的数据库连接处进行连接设置,并填写相关信息。连接成功后,将显示“Test successful”。

十三、数据挖掘实例演示

接下来我们将展示如何使用RapidMiner进行数据挖掘实例。通过以上准备,你可以开始进行数据挖掘的实际操作。

    本文来源:图灵汇
责任编辑: : lxx1994x
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数据挖掘数据源手把手amp教程
    下一篇