分类
2023-03-25 10:34:18 34 举报
AI智能生成
分类的概念与算法介绍
作者其他创作
大纲/内容
分类的基础知识
分类概念
分类是找出数据库中具有共同特点的一组数据对象,并按照分类模型将其划分成不同的类型。
分类的评价标准
分类的主要方法
分类算法
监督学习
决策树
朴素贝叶斯
支持向量机
神经网络
K近邻算法
无监督学习
聚类算法
关联规则挖掘
半监督学习
强化学习
集成学习
随机森林
Boosting
深度学习
卷积神经网络
循环神经网络
自编码器
深度信念网络
其他分类算法
决策表
贪心算法
遗传算法
模糊逻辑
案例推理
评价指标
准确率
召回率
F1值
ROC曲线
AUC值
工具库
scikit-learn
TensorFlow
Keras
PyTorch
Caffe
决策树分类
基本概念
决策树定义
决策树是一种分类和回归的算法
分类:将数据分为不同类别
基于树形结构进行决策
每个内部节点表示一个属性上的判断
每个分支代表一个判断结果的输出
每个叶节点代表一种分类结果
适用于离散型数据
可以处理缺失数据
可以处理不相关属性决策树构建
回归:预测数值型数据
决策树的构建过程
1.选择最佳特征
信息增益
信息增益比
基尼指数
卡方检验
2.划分数据集
3.递归构建子树
4.终止条件
决策树算法
ID3算法
概述
决策树算法
分类算法
基于特征选择
非参数监督学习
流程
输入数据
选择最优特征生成节点
划分数据集
递归构建决策树
剪枝处理
特征选择
信息增益
信息增益比
基尼指数
C4.5算法
CART算法
决策树剪枝
预剪枝
预剪枝
在决策树生成过程中进行剪枝
避免过度拟合
后剪枝
后剪枝
在决策树生成完成后进行剪枝
通过交叉验证选择最优子树
效果更好决策树应用
决策树应用
文本分类
图像分类
生物分类
产品分类
医学诊断
金融风险评估
客户流失预测
产品推荐
情感分析
决策树案例
天气预测
贷款申请
医疗诊断
优缺点
优点
易于理解和解释
可以处理离散型和连续型数据
可以处理多分类问题
可以处理缺失数据和不相关属性
可以生成规则
缺点
容易过度拟合
对异常值敏感
不稳定,数据变化会导致结果变化
忽略属性之间的相关性
处理连续型数据时需要离散化
0 条评论
下一页