初学者在学习机器学习时,经常会遇到数据集不足的问题,但实际上,scikit-learn 内置了许多可以直接用于机器学习的数据集,只需几行代码即可调用。
scikit-learn 提供了多个小型内置数据集,适用于各种任务,如回归和分类。以下是部分常用的数据集:
这些数据集包含了丰富的信息,可以通过以下关键字来访问这些信息:
鸢尾花数据集通常用于分类测试。它包含 150 条记录,分为三类,每类 50 条样本。每条记录有 4 个特征,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度,单位均为厘米。
导入数据
python
from sklearn.datasets import load_iris
iris = load_iris()
定义 X 和 y
python
X, y = iris.data, iris.target
查看数据维度
python
X.shape, y.shape
输出为:
python
((150, 4), (150,))
查看特征名称
python
iris.feature_names
输出为:
python
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
查看标签名称
python
iris.target_names
输出为:
python
array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
通过这些步骤,你可以轻松地获取和使用 scikit-learn 内置的数据集来进行机器学习实验。