C4.5
2016-01-08 22:58:27 5 举报
C4.5是一种决策树算法,由Ross Quinlan在1993年开发。它是一种改进的ID3算法,能够处理分类和回归任务。C4.5算法的主要优点是它可以生成一棵二叉决策树,并且可以处理连续属性。它使用信息增益比来选择最佳的特征进行划分,以减少过拟合的风险。此外,C4.5还具有剪枝功能,可以消除决策树中的冗余节点,从而提高模型的准确性。总之,C4.5是一种功能强大、灵活且易于使用的机器学习算法,广泛应用于各种领域。
作者其他创作
大纲/内容
计算出剩余训练样本集被属性A划分的信息增益率
取信息增益率最大值对应的分割点作为最佳分割点
是
成功
是否满足:剩余训练样本集属于同一个类别
信息增益率最大的那个属性Ae
否
是否满足:Ae为离散属性
计算出节点Node被剪枝,替换为叶子节点后,对应的节点误判率E(t)
是否满足:剪枝的条件,E(t)E(T)+Se(E(T))
决策树的构建
最佳分割点将剩余训练样本集分割为多个子样本集
失败
读取剩余训练样本集的下一个属性A
计算出节点Node对应的子树误判率E(T)
利用快速排序法将剩余训练集的样本根据属性Ae排序
对该节点Node对应的子树替换为叶子节点
是否满足:所有样本对于所有属性的划分全部确定
将子树T赋值为叶子节点
最佳分割点为Ae的所有离散取值
决策树的剪枝
使用广度优先遍历算法遍历决策树的下一个非叶子节点Node
剩余训练样本集的样本个数小于设定的阈值
0 条评论
下一页