数据挖掘导论
2021-04-13 10:55:02 1 举报
AI智能生成
🔆简单参考 🔸期末考试 🔸简单整理 🖌纯属博主个人补考时的题目(开卷补考)
作者其他创作
大纲/内容
绪论
什么是数据挖掘
Pang-Ning Tan《数据挖掘导论》中的定义
Jiawei Han的定义
一个类似于Jiawei Han的定义
引发数据挖掘的挑战
可伸缩
高维
异构数据和复杂数据
数据的所有权与分布
非传统的分析
数据挖掘的起源
多学科交叉领域
数据挖掘任务
预测(Prediction)
描述(Description)
数据
数据类型
属性
标称(nominal)
序数( ordinal )
区间(interval)
比率(ratio)
数据质量
测量和数据收集问题
数据预处理
相似性和相异性度量
探索数据
汇总统计
可视化
联机分析处理(OLAP)
关联分析:基本概念和算法
基本概念:关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示
算法
Apriori算法
FP增长算法
关联模式的评估
回归分析
线性回归
一元线性回归
多元线性回归
非线性回归及其它
非线性回归
稀疏(系数收缩)回归
Logistic回归
分类⸺基本概念、决策树与模型评价
分类任务
根据数据集学习一个映射(目标函数f),使得利用f能正确预测未见输入x对应的输出y
决策树归纳算法
Hunt算法
信息增益 Information gain
增益比率 Gain ratio
基尼指数 Gini index
模型评估
训练误差
模型复杂度
测试模型在验证数据集上的性能
贝叶斯分类方法
基本概念
一种基于统计的学习方法
利用概率统计知识进行分类学习
主要算法
朴素贝叶斯分类算法
条件独立性
边缘概率的计算
离散属性(频率估计)
连续属性(密度估计)
贝叶斯信念网络分类算法
因果关系图模型
条件独立性
概率表
使用贝叶斯网络进行推理
情形1:没有先验信息
情形2:高血压
情形3:高血压、饮食健康、经常锻炼身体
神经网络
基本概念
生物神经网络
人工神经网络
神经元的特性(激活函数)
神经元之间相互连接的形式(拓扑结构)
为适应环境而改善性能的学习规则(确定网络参数)
感知器
步骤
根据训练数据集,寻找合适的input-output映射模型
模仿神经元
模型训练
感知器学习算法
不足
只能解决线性可分的问题,对于线性不可分的问题无能为力
多层神经网络
步骤
确定神经网络的架构(拓扑结构)
选择神经元的激活函数
确定损失函数,建立优化问题
设计优化算法进行求解,确定网络参数
支持向量机
线性支持向量机
线性判别函数
线性可分情形的SVM
线性不可分情形的SVM
非线性支持向量机
概念
选择恰当的非线性映射将x映射到高维特征空间Z,在Z中构造最优超平面,以提高可分性
在特征空间中分类模型
模型求解
映射到高维空间带来的问题
解决方法
核函数
集成学习
基本概念
构建多个基分类器(base classifier)或个体分类器(individual classifier),将它们组合起来使用以达到提高分类性能的目的
串行生成【强依赖】
Boosting
训练
分类
关键点
样本权重如何设置调整
基分类器如何组合
并行生成【非强依赖】
Bagging
利用自助抽样(bootstrap)产生多个训练数据集,然后在这些数据集上训练得到多个基分类器,最后再将它们组合起来
随机森林
RF是Bagging的一个扩展变体
聚类分析
概念
将数据对象分组,使得同一组内的对象彼此相似(或相关),而不同组中的对象是不同的(或不相关)
组内的相似性(同质性)越大,组间差别越大,则聚类(分组)越好
类型
划分的(partitional)、层次的(hierarchical)
互斥的(exclusive)、重叠的(overlapping)、模糊的(fuzzy)
完全的(complete)、部分的(partial)
算法
K均值
凝聚的层次聚类
基于密度的聚类
异常检测
异常
异常对象通常也叫“离群点”
异常数据往往具有特殊的意义和很高的实用价值
异常的成因
测量、输入错误或系统运行错误所致
数据内在特性所决定
客体的异常行为所致
异常检测
异常检测(anomaly detection)也被称为离群点检测(outlier detection)、偏差检测(deviation detection)、例外挖掘(exception mining)
主要方法
按类标号(正常/异常)利用的程度
无监督的异常检测方法
有监督的异常检测方法
半监督的异常检测方法
按使用的主要技术路线角度
基于统计的异常检测
基于邻近度的异常检测
基于密度的异常检测
0 条评论
下一页