学会机器学习的第一步，你知道吗？_图灵汇

学会机器学习的第一步，你知道吗？

作者头像

中国学习网
2019-10-31 08:25:55 7

初学者在学习机器学习时，经常会遇到数据集不足的问题，但实际上，scikit-learn 内置了许多可以直接用于机器学习的数据集，只需几行代码即可调用。

自带数据集

scikit-learn 提供了多个小型内置数据集，适用于各种任务，如回归和分类。以下是部分常用的数据集：

波士顿房价：回归任务，包含 506 条记录，每条记录有 13 个特征。
加州住房：回归任务，包含 20640 条记录，每条记录有 9 个特征。
糖尿病数据集：回归任务，包含 442 条记录，每条记录有 10 个特征。
手写字体识别：分类任务，包含 1797 条记录，每条记录有 64 个特征。
乳腺癌数据集：分类和聚类任务，包含 569 条记录，每条记录有 30 个特征。
鸢尾花数据集：分类和聚类任务，包含 150 条记录，每条记录有 4 个特征。
葡萄酒数据集：分类任务，包含 178 条记录，每条记录有 13 个特征。
体能训练数据集：多分类任务，包含 20 条记录，每条记录有 3 个特征。

如何使用

这些数据集包含了丰富的信息，可以通过以下关键字来访问这些信息：

DESCR：数据集描述信息。
data：外部数据（即 X）。
feature_names：数据字段名称。
target：数据标签（即 y）。
target_names：标签字段名称（仅限分类数据集）。

以鸢尾花数据集为例

鸢尾花数据集通常用于分类测试。它包含 150 条记录，分为三类，每类 50 条样本。每条记录有 4 个特征，分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度，单位均为厘米。

使用步骤

导入数据

python from sklearn.datasets import load_iris iris = load_iris()
定义 X 和 y

python X, y = iris.data, iris.target
查看数据维度

python X.shape, y.shape 输出为： python ((150, 4), (150,))
查看特征名称

python iris.feature_names 输出为： python ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
查看标签名称

python iris.target_names 输出为： python array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

通过这些步骤，你可以轻松地获取和使用 scikit-learn 内置的数据集来进行机器学习实验。

责任编辑：：中国学习网

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

机器学会知道学习

下一篇

机器学习工程师福音：超好用的Streamlit简介

高杰

2019-10-31