学会机器学习的第一步,你知道吗?
作者头像
  • 中国学习网
  • 2019-10-31 08:25:55 7

初学者在学习机器学习时,经常会遇到数据集不足的问题,但实际上,scikit-learn 内置了许多可以直接用于机器学习的数据集,只需几行代码即可调用。

自带数据集

scikit-learn 提供了多个小型内置数据集,适用于各种任务,如回归和分类。以下是部分常用的数据集:

  • 波士顿房价:回归任务,包含 506 条记录,每条记录有 13 个特征。
  • 加州住房:回归任务,包含 20640 条记录,每条记录有 9 个特征。
  • 糖尿病数据集:回归任务,包含 442 条记录,每条记录有 10 个特征。
  • 手写字体识别:分类任务,包含 1797 条记录,每条记录有 64 个特征。
  • 乳腺癌数据集:分类和聚类任务,包含 569 条记录,每条记录有 30 个特征。
  • 鸢尾花数据集:分类和聚类任务,包含 150 条记录,每条记录有 4 个特征。
  • 葡萄酒数据集:分类任务,包含 178 条记录,每条记录有 13 个特征。
  • 体能训练数据集:多分类任务,包含 20 条记录,每条记录有 3 个特征。

如何使用

这些数据集包含了丰富的信息,可以通过以下关键字来访问这些信息:

  • DESCR:数据集描述信息。
  • data:外部数据(即 X)。
  • feature_names:数据字段名称。
  • target:数据标签(即 y)。
  • target_names:标签字段名称(仅限分类数据集)。

以鸢尾花数据集为例

鸢尾花数据集通常用于分类测试。它包含 150 条记录,分为三类,每类 50 条样本。每条记录有 4 个特征,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度,单位均为厘米。

使用步骤

  1. 导入数据

    python from sklearn.datasets import load_iris iris = load_iris()

  2. 定义 X 和 y

    python X, y = iris.data, iris.target

  3. 查看数据维度

    python X.shape, y.shape 输出为: python ((150, 4), (150,))

  4. 查看特征名称

    python iris.feature_names 输出为: python ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

  5. 查看标签名称

    python iris.target_names 输出为: python array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

通过这些步骤,你可以轻松地获取和使用 scikit-learn 内置的数据集来进行机器学习实验。

    本文来源:图灵汇
责任编辑: : 中国学习网
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器学会知道学习
    下一篇