商务智能
2022-06-13 13:21:27 11 举报
AI智能生成
好好学习
作者其他创作
大纲/内容
数据与信息(决策=信息+知识+冒险)
支持决策
个人目标
基础
系统组成 P29
数据集成
系统架构
数据仓库P36
数据集市
元数据
抽取、转换、清洗
ETL
数据储存
数据仓库
在线分析处理
概念、数据预处理
基于划分、簇、距离
给定K,从n个对象中随机选择K个对象作为初始聚类中心
对剩余对象,计算其与聚类中心之间的距离,根据距离划分不同簇
重新计算每个簇的平均值,求出新的聚类中心,直到聚类中心不在发生变化
k-means P99
根据分类属性值的出现频率更新聚类中心、相异度
预先定义K个类,确定每个类的初始类模式Q
根据Q把每个对象赋予最相临的类,更新Q、直到Q不在变化
子主题
k-modes P102
核心点、边界点、噪声点
密度
标记
DBSCAN P105
相异度
概念、特点
欧几里德距离
距离
统计量
离群因子
离群检测
招商引资、生物基因聚类、PS抠图、住房区的空调需求特征
应用
聚类分析
训练样本集
贝叶斯分类器 P109
贪心算法
熵值、纯度、分支数学:gain最大
gain(A)= I - E(A)
信息增益(ID3/C5.0)
不纯度、分支依据:最小
gini指数
X²检验
过拟合、修建
决策树 P113
分类分析
支持度、置信度、提升度
最长频繁项集
强关联规则
关联规则
频繁项集——强关联规则——最小支持度、最小置信度
大量候选集、重复扫描
项目从
Apriori P139
数据库D——1频繁项集及其支持数
按支持数降序排列,并记录结果L
创建FP树根节点(null)。依照D,按L中次序排列每个事务的路径
从而得出:前缀路径、条件FP树、产生的频繁项集
FP增长树 P143
商品推荐、景点推荐、科技研发关联、跨界合作.
关联分析
多元回归分析(见实验P355)
回归分析
算法
聚类分析 P95
数据挖掘
技术
工作亮点
工作不足
文档特征值(关键词)权重计算的方法、词频*反文档频率
TF-ID3
内容挖掘
结构挖掘
使用挖掘
web挖掘
下一阶段工作计划
商务智能
0 条评论
下一页