大家好,我是Python数据分析师,今天想分享一下我在转型过程中的一些经验,特别是关于人工智能的学习路径。我将通过四个部分来介绍:《15天学会Python编程》、《每天10分钟,用Python学数据分析》、《Python数据可视化实战》以及《33天搞定机器学习》。
在前一篇文章中,我们探讨了决策树的基础知识、原理、参数及其实际应用。现在我们将重点关注如何使用可视化方法来展示决策树。
sklearn.tree.DecisionTreeClassifier
是一个强大的工具,可以用于构建和训练决策树模型。它的主要参数包括:
- criterion
: 用于计算节点纯度的标准,默认是基尼系数('gini')。
- splitter
: 节点划分的方式,可以选择'best'或'random'。
- max_depth
: 树的最大深度。
- min_samples_split
: 节点分裂所需的最小样本数。
- min_samples_leaf
: 叶节点所需的最小样本数。
- min_weight_fraction_leaf
: 叶节点所需最小权重比例。
- max_features
: 寻找最佳分割时考虑的最大特征数。
- random_state
: 控制随机化行为。
- max_leaf_nodes
: 最大叶节点数。
- min_impurity_decrease
: 分裂节点所需的最小纯度下降值。
GraphViz 是一个由 AT&T Lab 开发的开源工具,用于生成图形。它专注于点和边的关系,无需关心布局或位置。这使得它非常适合与Python结合使用,以创建模型可视化。
GraphViz 提供了多种工具,如 dot、neato、circo 和 twopi,可以生成不同类型的图表。本文将重点介绍用于生成层次结构图表的 dot 工具。
首先从 GraphViz 官网下载安装包 graphviz-2.38.msi 并安装。默认安装路径为 C:Program Files (x86)Graphviz2.38。
安装完成后,会在 Windows 开始菜单中创建快捷方式。
配置环境变量:进入计算机属性 -> 高级系统设置 -> 环境变量 -> 系统变量 -> path,添加 GraphViz 的安装路径。
验证安装:打开命令行窗口,输入 dot -version
,若显示相关版本信息则表示安装成功。
打开 C:/Users/H.X.X/anaconda3/Lib/site-packages 文件夹中的 pydot.py 文件,使用 Ctrl+F 搜索 self.prog 并将其改为 'dot.exe'。保存文件即可。
使用 pip 安装 graphviz 和 pydotplus 模块。
测试配置是否正确。
为了生成决策树可视化,我们可以调用 export_graphviz
函数。这个函数有许多参数,可以用来控制节点上的信息显示。根据需要设置参数即可生成所需效果。
```python from sklearn.datasets import load_iris from sklearn import tree import pydotplus import sys import os
iris = load_iris() clf = tree.DecisionTreeClassifier() clf = clf.fit(iris.data, iris.target)
dotdata = tree.exportgraphviz(clf, outfile=None, featurenames=iris.featurenames, classnames=iris.targetnames, filled=True, rounded=True, specialcharacters=True) graph = pydotplus.graphfromdotdata(dotdata) ```
决策树的每个节点除了叶节点外,通常包含五部分内容: - 基于某个特征值的问题。 - 数据集根据问题答案被分为两个子集。 - Gini 不纯度值。 - 节点中的样本数量。 - 各类别的样本数量。 - 大多数样本所属的类别。
希望这些内容对你有所帮助!如果对机器学习感兴趣,欢迎关注我的专栏!
以上是改写后的文章内容,符合您的要求且尽量减少了与原文的相似度。