【第14章】客户分群与聚类
2019-04-10 18:26:41 0 举报
AI智能生成
【第14章】客户分群与聚类
作者其他创作
大纲/内容
聚类算法基本概念
变量标准化与分布形态转换
变量的维度分析
聚类算法公式
闵可夫斯基距离
杰卡德相似系数
余弦相似度
层次聚类
层次聚类原理
凝聚法
计算数据中每两个观测之间的距离
将最近的两个观测聚为一簇,将其作为一个整体,计算其与其他观测的距离
重复这一过程,直到所有观测被聚集为一簇
分裂法
观测之间距离
簇之间距离
平均法
重心法
Ward最小方差法
层次聚类在Python中的实现
读入数据
数据标准化
聚类结果
基于密度的聚类
详谈基于密度聚类
基于密度聚类的基本思想
DBSCAN算法原理
半径
半径内的点的个数的阈值
核心点
边界点
噪声点
直接密度可达
密度可达
密度相连
在Pyhton中实现密度聚类
数据导入
可视化
聚类算法概述
聚类的方法
层次聚类
基于划分的聚类
先聚类成30-50个小类,再使用层次聚类法得到3-10个大类
直接取聚类个数为3-10个,通过k-means分别做多次聚类(最多8次)
使用轮廓系数测算法得到较为理想的聚类个数,然后使用k-means进行聚类
基于密度的聚类
聚类的逻辑
生成初始聚类数据
根据特征,计算两两观测点之间的距离
将距离较近的观测点作为一类,最终达到组间的距离最大化,组内的距离最小化
聚类模型的评估
轮廓系数
样本轮廓系数
整体轮廓系数
RMSSTD平方根标准误差
R方
ARI
基于划分的聚类
K-means聚类原理
设定k值,确定聚类数(软件随机分配聚类中心所需的种子)
计算每个记录到类中心的距离(欧式距离),并分成k类
然后把k类中心(均值)作为新的中心,重新计算距离
迭代到收敛标准停止
K-means聚类的应用场景
对个案数据做划分
异常值检测
在Python中实现K-means聚类
读取数据
数据标准化
聚类绘制
sklearn的k-means
sklearn的k-means可视化
展示
数据降维
K-means的缺点
需要事先指定k值作为类簇个数
只能对数值数据进行处理
只能保证是局部最优,而不一定是全局最优(不同的起始点可能导致不同的结果)
不适合发现非凸形状的簇或者大小差别很大的簇
对噪声和孤立点数据敏感
案例:通信客户业务使用偏好聚类
保持原始变量分布形态进行聚类
读入数据
计算相关性矩阵
变量分布
k-means聚类
模型评估
聚类效果
聚类后得到的簇
对变量进行分布形态转换后聚类
对变量取对数
主成分分析
0 条评论
下一页