详解datasets.load_iris()

一、前言

在机器学习领域中，常见的操作之一是数据集的预处理。datasets.load_iris()是机器学习领域中提供的一种常用数据集，它是一个有关鸢尾花的数据集。本文将从多个方面对datasets.load_iris()进行详细的阐述，希望能够帮助读者更好地理解该数据集。

二、数据集概述

数据集是指一组数据实例的集合。在机器学习领域中，数据集通常用于训练和测试模型。datasets.load_iris()数据集是一个包含150个数据实例的数据集，每个数据实例包含该鸢尾花的4个属性，以及该鸢尾花所属的品种。该数据集共有3中不同的品种，每个品种有50个数据实例。

    from sklearn.datasets import load_iris
    iris = load_iris()
    print(iris.keys())
    #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

首先我们需要导入load_iris()模块，然后我们可以通过打印iris.keys()来确定该数据集中包含的所有信息。运行代码后，可以看到该数据集中包含以下6个键值：

‘data’：一个150×4的numpy数组，包含150个数据实例的属性值；
‘target’：一个长度为150的numpy数组，包含每个数据实例所属的品种；
‘target_names’：一个长度为3的numpy数组，包含每个品种的名称；
‘DESCR’：一个字符串，包含该数据集的说明文档；
‘feature_names’：一个长度为4的numpy数组，包含每个属性的名称；
‘filename’：一个字符串，包含该数据集存储的文件名。

三、数据集属性

在使用datasets.load_iris()数据集时，我们需要了解该数据集的每个属性的含义。以下是每个属性的详细介绍：

1. ‘data’

‘data’属性是一个包含150个数据实例的150×4 numpy数组。每个数据实例包含以下4个属性：

萼片长度（cm）
萼片宽度（cm）
花瓣长度（cm）
花瓣宽度（cm）

    print(iris['data'])
    #[[5.1 3.5 1.4 0.2]
    # [4.9 3.  1.4 0.2]
    # [4.7 3.2 1.3 0.2]
    # ...
    # [6.5 3.  5.2 2. ]
    # [6.2 3.4 5.4 2.3]
    # [5.9 3.  5.1 1.8]]

2. ‘target’

‘target’属性是一个包含150个数据实例的长度为150的numpy数组。每个数据实例所属的品种标签是从0到2的一个整数，分别表示以下品种：

0：山鸢尾花（Iris setosa）
1：变色鸢尾花（Iris versicolor）
2：维吉尼亚鸢尾花（Iris virginica）

    print(iris['target'])
    #[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
    # 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
    # 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
    # 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]

3. ‘target_names’

‘target_names’属性是一个包含3个目标类标签的numpy数组，分别表示以下品种：

0：山鸢尾花（Iris setosa）
1：变色鸢尾花（Iris versicolor）
2：维吉尼亚鸢尾花（Iris virginica）

    print(iris['target_names'])
    #['setosa' 'versicolor' 'virginica']

4. ‘DESCR’

‘DESCR’属性是一个字符串，包含该数据集的详细描述信息。

    print(iris['DESCR'])
    #Iris Plants Database
    #====================
    #
    #Notes
    #-----
    #Data Set Characteristics:
    #    :Number of Instances: 150 (50 in each of three classes)
    #    :Number of Attributes: 4 numeric, predictive attributes and the class
    #    :Attribute Information:
    #        - sepal length in cm
    #        - sepal width in cm
    #        - petal length in cm
    #        - petal width in cm
    #        - class:
    #                - Iris Setosa
    #                - Iris Versicolour
    #                - Iris Virginica
    #    :Summary Statistics:
    #    ...

5. ‘feature_names’

‘feature_names’属性是一个包含4个属性名称的numpy数组，分别是：(‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’)

    print(iris['feature_names'])
    #['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

四、数据集应用

数据集是机器学习领域中不可或缺的部分之一。使用datasets.load_iris()数据集可以对分类问题进行训练和测试。以下是一个数据集的使用示例，使用了train_test_split将数据集分成了训练集和测试集：

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    
    iris = load_iris()
    X = iris.data
    y = iris.target
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

上述代码中，我们首先导入load_iris()模块。然后，我们将整个数据集的数据部分（’data’）赋给X，将整个数据集的目标变量部分（’target’）赋给y。接下来，我们使用train_test_split将数据集分为训练集和测试集。在这个例子中，数据集被分为80%的训练集和20%的测试集。

五、结语

本文对datasets.load_iris()数据集进行了深入的介绍，包括数据集概述、数据集属性和数据集应用。此外，我们也提供了一个使用数据集的示例。希望本文能够对读者在机器学习领域有所帮助。

原创文章，作者：HJBC，如若转载，请注明出处：https://www.506064.com/n/135441.html