决策树之 C4.5 算法
2016-07-06 13:35:42 0 举报
C4.5 算法是一种决策树学习算法,由 Ross Quinlan 在1993年提出。它是 ID3 算法的改进版,引入了信息增益比(Information Gain Ratio)作为划分标准,解决了ID3算法倾向于选择取值较多的属性的问题。C4.5算法通过构建一棵二叉决策树来进行分类或回归任务。它采用递归的方式,每次选择一个最优的特征进行划分,直到满足停止条件(如叶子节点中样本数量小于预设阈值或所有特征都已使用)。C4.5算法具有较好的分类性能和泛化能力,广泛应用于数据挖掘、机器学习等领域。
作者其他创作
大纲/内容
Y
根据分支信息熵计算条件熵Entropy( S|T )
7
No
0.93
选择最信息增益率最大的特征属性为决策节点加入决策树
计算分裂信息IV(T)
计算各个属性下的分支信息熵Entropy( Ti )
65
Humidity
N
0.937
12
5
0
70
8
2
OutLook
68
0.0
0.92
temperature
0.939
C4.5 决策树构建过程(局部)
75
72
9
83
3
计算特征属性 Tn 的信息增益率IGR( Tn )
81
index
0.94
True
Yes
11
0.925
计算特征属性 T0 的信息增益率IGR( T0 )
10
70
Windy
1
0.89
85
13
False
= 70
. . .
Rainy
6
Overcast
0.924
71
classify
计算当前信息熵Entropy( S )
69
4
计算特征属性 T 的信息增益IG( T )
计算特征属性 T1 的信息增益率IGR( T1 )
64
80
data
Sunny
0 条评论
下一页