C4.5
2017-02-17 15:43:19 0 举报
C4.5是一种决策树算法,它能够从一组有类别的实例中构造出一个决策树模型。该算法的主要优点是可以处理大规模数据集,并且可以处理具有不同属性值的实例。C4.5算法的核心思想是通过对数据集进行递归划分来生成决策树。在每个节点处,算法会计算所有属性的信息增益比,并选择具有最大信息增益比的属性作为划分属性。然后,算法会根据划分属性的不同取值将数据集划分为不同的子集,并递归地对每个子集应用相同的过程,直到满足停止条件为止。最终生成的决策树可以用来对新的实例进行分类预测。
作者其他创作
大纲/内容
Read training samples
N
Read the dataset name
Save the sample table
Fig 2-1 the Flowchart of C4.5 Algorithm
Is missing data?
Stored to the attribute hash table
Print the classified information after testing the generated tree
Divide the area
K-times iterative cross validation
Ignore or replace with the most common attribute values
Y
Rule extraction
Construct the k-1 subsets using the c4.5 algorithm
Is a continuous attribute
Start
End
Read attribute information
Divide the data set into several subsets
0 条评论
回复 删除
下一页