决策树模型

作者 : 开心源码 本文共648个字,预计阅读时间需要2分钟 发布时间: 2022-05-13 共160人阅读

1.简介

a.最经典的机器学习模型之一

b.预测结果容易了解,易于解释

c.预测速度快

d.可解决类别和连续数据

2.算法原理

决策树是相似于树的结构,分支节点表示对一个特征进行测试,根据测试结果进行分类,树叶代表一个类别。

决策树模型

先对哪些特征进行分类

信息的量化:信息熵,基尼不纯度

什么样的特征带来的最多的信息变化幅度,我们就选择哪个特征来分类

假如特征为连续值,需要对数据进行离散解决

决策树的创立过程

a.遍历所有未划分的特征

b.选择信息增益大的特征划分数据

c.递归解决所有子集

递归解决的结束条件

a.所有特征都用完了

b.划分后的信息增益足够小

决策树的处理过拟合的方法

a.前剪枝:设定一个阈值,信息熵减小的数量小于这个值,中止创立分支

b.后剪枝:决策树创立完成之后,对节点检查其信息熵的增益

c.控制决策树的最大深度

决策树算法在scikit-learn中的算法参数

scikit-learn 中使用sklearn.DecisionTreeClassifier来实现决策树分类算法

a.criterion:特征选择方法

b.max_depth:决策树的最大深度

c.min_samples_split: 创立分支的数据集最小值

d.min_samples_leaf:创立分支后的节点样本数量最小值

e.min_impurity_split:信息增益阈值

以上参数意在处理过拟合问题

德国信誉卡实例

德国信誉卡欺诈数据集

x = data[data.columns[:-1]]

y = data[data.columns[-1]]

解决数据

下面进行优化

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 决策树模型

发表回复