数据分析
2022-05-05 11:15:19 1 举报
AI智能生成
数据分析、描述性数据分析
作者其他创作
大纲/内容
目的
现状分析
告诉你过去发生了什么
原因分析
告诉你为什么这些现状会发生
预测分析
告诉你未来会发生什么
步骤
明确分析目的和思路
目的:一切以目标为导向
新产品是否有前景
现有产品
思路
战略环境分析
PEST分析
政治&法律(Political)、经济环境(Economical)、社会&自然(Social)、技术环境(Technological)
波特五力
供应商的议价能力、购买者的议价能力、潜在竞争者进入的能力、替代品的替代能力、行业内竞争者现在的竞争能力
SWOT
S优势(strengths)、W 劣势(weaknesses),O 机会(opportunities)、T 威胁(threats)
战略匹配
BCG波士顿矩阵
明星(双高)、现金牛(增长低、占有高)、问题(增长高、占有低)、瘦狗产品(双低)
以市场份额和业务增长率作为x、y轴
麦肯锡矩阵
以竞争实力和吸引力为x和y轴,每个维度分三级分为九个九宫格
战略实施
波特战略
细分市场、差异化、成本优先
迈克尔和斯诺的战略框架
探索者、分析者、防御者、回应者
持续式创新和颠覆式创新
创新画布
架构式(1,1)、突破式(1,0)、颠覆式(0,1)、常规式(0,0)
以技术和商业模式作为x、y轴
数据收集
内部
ERP
CRM
来源:ERP、CRM...
存储
关系型DB:ORacle、MySQL...
非关系型DB:NoSQL
四种类型:键值(Key-Value)、列存储(百度搜索)、文档数据库(文档格式xml、JSON、BSON)、图数据库
数据仓库
特点:聚合性、集成性、稳定性、随着时间变化
与数据库的区别
外部
来源:网络爬虫(八爪鱼)、外购交易、行业数据
数据处理
数据清洗
缺失值
处理方法
忽略该记录
去掉属性
手工填写空缺值
使用默认值
使用属性平均值
使用同类样本平均值
预测最可能的值
异常值
聚类分析
1、先聚类2、类别之外为异常
拟合函数
例如回归函数
箱线图
IQR=Q3-Q1
异常值常见挑选方式:x<Q1-1.5*IQR 或 x>Q1+1.5*IQR
数据集成
模式匹配
整合不同数据源中的元数据(vlookup)
数据冗余
数据值冲突
转化
规范化
最小最大规范化
零-均值规范化
小数定标规范化
数据概化
用更抽象(高层次)的概念来取代低层次或数据层的数据对象
例:年龄--青年、中年、老年
属性构造
根据现有属性构造新属性
例:长、款--面积
数据规约
数据立方体聚集
季度数据聚集,汇总每年的数据
维规约
去掉无关属性,减少数据挖掘处理的数据量
例:顾客在商场购买MP3的分类规则,与电话号码无关,可以去掉
目标:寻找最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据及的概率分布
数据压缩
用数据编码或者转换,得到原始数据的压缩表示
实例:主成分分析法PCA、因子分析
数据规约
抽样
优点:获取样本的时间仅与样本规模成正比
方法:不放回简单随机抽样;放回简单随机抽样;聚类抽样:先聚类,在抽样;分层抽样:先分层,再抽样;
离散化
概念分层
数据分析
现状分析
对比分析(同环比分析)
平均分析
综合评价分析
... ...
原因分析
分组分析
结构分析
漏斗图分析
关联分析
聚类分析
... ...
预测分析
回归分析
时间序列分析
决策树分析
神经网络
... ...
数据展现
分类
数据可视化
社交可视化
文本可视化
地理可视化
图形
柱形图、直方图、饼图、环形图、折线图、二维散点图、气泡图、雷达图、热力图、箱线图、网络图
工具
R、Python、MATLAB、Excel、Datahoop、Tableau、NodeXL、Gephi、E-charts、D3、WordArt(词云)、PowerMap(地图)、Highchart、Ant V、G2
撰写报告
展示分析结果
验证分析质量
提供决策参考
建议结构
总
分析背景、目的思路
分
具体分析过程与结果
总
结论建议
思维
描述性
主成分分析
将彼此相关的一组指标向量转化为彼此独立的一组新的指标向量,并用其中较少的几个新指标变量综合反映原多个指标变量中所办函的主要信息。
目的:1、数据的压缩;2、数据的解释
理解
指标数繁杂,需要进行分类
帮助我们去找可以代表原有指标的新指标(人均耕地面积、农民人均收入、人均粮食产量概括为人均资源量)
注意事项
一般要求所选主成分的方差总和占全部方差的80%就可以了
做主成分分析前要标准化
选择标准
主成分所代表的原始变量的信息用其方差来表示。
所选择的第一个主成分是所有主成分中方差最大者;
如第一个主成分不足以代表原来的多个变量,在考虑选择第二个主成分;
一般要求选择所选主成分的方差占全部方差的80%以上就可以了
这些主成分互不相关,且方差递减
操作步骤
对原来的P个指标进行标准化,以消除变量在水平和量纲上的影响;
根据标准化后的数据矩阵求出相关系数矩阵;
求出协方差矩阵的特征根和特征向量;
确定主成分,并对各主成分所包含的信息给予适当的解释;
基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分)
因子分析
基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。
主成分分析与因子分析的区别
主成分:原指标组合,选前n个y当主成分;
y1=ax1+bx2+cx3+dx4+ex5+fx6
y2=gx1+hx2+ix3+jx4+kx5+lx6
示例:自变量x为学科(语数外物理化学),根据abcdefghijkl的系数,探究自变量的相关性。
因子:原指标拆解,把x拆成新指标f,用f去描述样本
x1=af1+bf2
x2=cf1+df2
x3=ef1+ff2
x4=gf1+hf2
x5=if1+jf2
x6=kf1+lf2
示例:自变量x为学科(语数外物理化学),转化 拆解为 f1理科因子、f2文科因子
http://www.docin.com/p-2184461936.html
聚类算法
按照中心点或者分层的方式对输入数据进行归类。聚类算法都试图找到数据的内在结构,以便按照最大共同点将数据进行归类。
聚类算法
K-Means
方法
确定所有聚类变量
数据预处理
确定聚类个数并用处理后的聚类因子进行聚类分析
分析聚类效果和聚类结果
结合实际情况分析每类的意义
局限性
对噪点和离群点敏感
变量共线会对聚类效果产生影响
对数据类型要求高,适合数值型数据
涉及算距离的算法则需要数值型,且要进行标准化
不能对如下的蔟正确聚类
圆环形蔟
非线性聚合
它是基于给定的聚类目标函数,算法采用迭代更新的方法,每一次迭代过程都是向目标函数减小的方向进行,最终聚类结果使得目标函数取得极小值,达到较好的分类效果
K-Medoids
为避免K-Means对离群点的敏感性,一个解决方法是不采用蔟中对象的均值作为参考点,而是挑选实际对象来代表蔟,每个蔟使用一个代表对象(选择依据:它到当前蔟中其他所有点的距离之和最小)
DBSCAN
基于密度的聚类--考察样本密度来衡量样本之间的可连接性,不断拓展聚类蔟实现聚类目的
DBSCAN给予邻域参数(邻域半径,邻域内最小样本点数)来刻画样本分布的紧密程度。
层次聚类
事先不确定要分多少类,而是把每一个对象作为一类,然后一层一层进行分类
常用的是离差平均和
应用场景
单纯使用:用户划分
结合使用:提取数据特征
聚类效果检验:轮廓系数
若接近1,说明聚类合理;若接近-1,说明应该分类到其他蔟;若接近0,说明在两个蔟的边界上
https://blog.csdn.net/qq_37537170/article/details/107759878
https://blog.csdn.net/weixin_42056745/article/details/101287231
关联规则
概念
基于频繁项集的一种挖掘关联规则的算法
场景
最典型的是购物篮分析,在其他的搜索相关性的场景中也能得到很好的应用,比如关联推荐、产品组合设计、客户消费习惯挖掘等
特点
只能处理分类变量,无法处理数值型变量
核心算法
支持度Support
Support(A->B)=P(A∩B)支持度揭示了A与B同时出现的概率
置信度Confient
Confident(A->B)=P(B|A)置信度揭示了A出现时,B是否也会出现或有多大概率出现
最小支持度和最小置信度
:设定支持度和置信度的最小值,高于最小值才有意义
提升度Lift
在含有A的条件下,同时含有B的概率,与不含A的条件下却含有B的概率之比Lift(A→B)=P(B|A)/P(B)
强关联规则
满足最小支持度和最小置信度
Lift(A→B)>1,则A→B是有效的强关联规则
Lift(A→B)≤1,则A→B是无效的强关联规则
Lift(A→B)=1,则A→B相互独立
操作步骤
确定列表中所有项
数据预处理
确定最小支持度和最小置信度
设置合理参数进行关联分析,将结果进行整理,按要求写出频繁项集和强关联规则等
模型结果结合实际情况给出建议
https://zhuanlan.zhihu.com/p/30033395
预测性
概述
简介
特点:预测未来发生了什么
模型与算法的区别
模型是由算法训练出来的结果≠算法
监督学习
类别
回归
分类
概念:找出X与Y之间的映射关系
非监督学习
聚类
思想:只有X没有Y,找出X的关系
建模过程中的普遍问题(预测/分类)
过拟合与欠拟合
训练误差:模型在训练数据集上表现的误差
泛化误差:模型在测试数据集上表现的误差
生产测试集的方法
留出法
100个数据,80个训练集,20个测试集
交叉验证(K折交叉验证)
一份数据集,随机分为10份,9份训练,1份测试,然后重新随机分布,如此循环,取K次的结果取均值进行验证
自助法
原始数据集有放回的随机测试
抽取样本作为训练集,未被抽取作为测试集
优点:样本量少,可扩充训练集
缺点:样本重复,改变原数据分布状态
过拟合:训练误差很小,而泛化误差很大
只可减轻不可消除
欠拟合:训练误差较大
模型弱,学习效果差,可以消除
如何选择模型和模型参数
对候选模型的泛化误差进行评估,选择泛化误差最小的那个模型
如何进行模型评估
除了需要一个训练数据集来训练模型外,还需要一个测试数据集来测试模型对新样本的判别能力,以测试集上的误差作为泛化误差的近似。
预测/分类器效果检验指标
混淆矩阵与accuracy
模型预测对的分类处在混淆矩阵的对角线上
精确度accuracy定义为模型预测对的样本数量比样本总体的数量
准确率与召回率
TP: 将正类预测为正类数
FN: 将正类预测为负类数
FP: 将负类预测为正类数
TN: 将负类预测为负类数
T/F 预测结果与预测样本对比是否正确
P/N预测结果为正确/错误
准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)
精确率(precision) = TP/(TP+FP) ,分母为预测后正类
召回率(recall) = TP/(TP+FN) ,分母为预测前正类
F1-Score
一般情况下我们希望精确率和召回率越大越好,但事实上两者在某些凭空是矛盾的
结合精确率和召回率综合评分
分支主题
ROC曲线与AUC值
ROC曲线向左上角凸,分类器效果越好
AUC值为ROC曲线下方的面积
线性回归
F整体显著性≤0.05
t单个回归系数显著性≤0.05
R²拟合度在(0,1]
线性回归预测法就是寻找变量之间的因果关系,并将这种关系用数学模型表示出来,通过历史资料计算这两种变量的相关程度,从而预测未来情况的一种方法。
逻辑回归(Logistic回归)
Logistics是一种分类方法,主要用于二分类问题
推导过程
损失函数
梯度下降
大部分机器学习获取最优解的方法
假设函数
表示为1类的概率
次原函数
注意事项
共线性问题正则项:解决共线性问题(不用向前选择、向后删除、逐步回归)
表示类别的字符型变量(如东南西北)不可直接使用,需要进行数据转换
哑变量
异常值对模型影响很大,应该删除
优点
预测结果界于0和1之间的概率
适用于连续型和类别性
容易使用,可解释性较强
缺点
对自变量的多重共线性较为敏感
容易欠拟合
分类精度不高
通过历史数据的表现对未来结果发生的概率进行预测。
神经元网络
决策树
分类
ID3
信息增益最大(频数统计)
C4.5
信息增益率最大
CRAT(卡特树)
基尼系数(Gini)最小
永远只是二叉树
优点
易于理解与实现
数据的准备往往是简单或者是不必要的
能够同时处理数据型和常规型属性
在相对短的时间内能够对大型数据源做出可行且效果良好的结果
对缺失值不敏感,可以处理不相关特征数据
缺点
对连续型的字段比较难预测
删除重复值
遍历所有节点对比信息增益
当类别太多时,错误可能就会增加的比较快
在处理特征关联性比较强的数据时表现不是太好
过拟合问题的出现
K-近邻算法(KNN)
原理:近朱者赤近墨者黑
计算步骤
算距离:对于未知样本,计算它与训练集中的每个对象的距离
找邻居:固定距离最近的K个训练对象,作为未知样本的近邻
做分类:根据这K个近邻归属的主要类别,来对测试对象分类
常见测距方式
欧式距离
曼哈顿距离
切比雪夫距离
局限性
样本分布不均匀会导致错误
改进方法:加权
优点
简单易于理解、实现,无需估计参数,无需训练,适合对稀有事件进行分类
特别适合于多分类问题
缺点
懒惰算法,对测试样本分类计算量大,内存开销大,评分慢
可解释性较差,无法给出决策树那样的规则
集成学习
主要分类
个体学习器间不存在强依赖关系,可同时生成的并行化方法。代表的是Bagging方法,随机森林(Random Forest)
基本原理
对训练样本集采取有放回的采样,生成n个样本集,分别用来训练n个基分类器
预测时,每个基分类对新样本进行分类,整体模型结果为得票数多的类别
Bagging的准确率通常显著高于由原始样本得到的单个分类器,受异常值影响和过拟合风险都更小
随机森林
用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行判断,看看这个样本属于哪一类,然后再看看哪一类被选择最多,就预测这个样本为那一类。
特点
准确率可以和adaboost媲美
对噪声和离群点不敏感
过拟合风险低
每次划分只考虑很少的特征,故在大型数据库上非常有效
运行速度可能比bagging和boost更快
个体学习器间存在强依赖关系,必须串行生成的序列化方法。代表是Boosting方法
支持向量机
https://www.sohu.com/a/247524716_420744
案例
0 条评论
下一页