CPDA-数据分析方法
2020-09-21 10:51:36 1 举报
AI智能生成
CPDA 数据分析
作者其他创作
大纲/内容
线性回归
定义
定义线性回归在假设特征满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。
解题步骤
1、分析题目需求,明确分析方法。确定自变量、因变量。
2、查看数据,进行预处理。
一元回归可以先画散点图,看看线性关系。
有无缺失值,用中位数或者均值填充。
有无异常值,数据量少,为避免影响,不做处理。
查相关系数矩阵分析,相关性较强,可进行线性回归分析。多元回归分析,两因变量相关性太强,做降维处理,如X2/X1
3、平台进行线性回归分析(默认先做标准化后分析)
4、查看参数,是否经过F检验、T检验,多元方程看向后删除的数据
是否经过F检验、T检验,P值是否小于0.05,小于表明因变量与自变量的相关性显著
T检验,变量的相关性;P检验,模型整体相关性
R方检验,或调整R方是否接近1,表明模型拟合好,可用于预测。
5、列出回归方程,解释方程参数经济意义,正相关、负相关,截距(常数项)
6、导入预测数据,预测结果截图并解释。
规划求解
定义
“规划求解”是一组命令的组成部分,,可通过更改其他单元格来确定某个单元格的最大值或最小值。
解题步骤
1、分析题目,通过线性规划方式,以什么变量求什么的最优解。
2、先设定变量(如果是工序、分厂、前后舱,还有不同方案,就按照工序不同方案分别设定)
3、确定目标函数(最大或最小)
4、确定约束条件,题目给予的整体约束、局部约束、变量个体约束都要列清楚;最后加上非负整数的约束。注意条件应该包括题干里的额、表格里、常识类
5、按照变量、约束条件、目标函数设定公式
6、用Excel规划求解,先选定目标函数格式并确定最大还是最小;然后选择变量区;最后将所有约束条件添加,进行求解。
7、检查求解结果,查看是否满足全部条件。
8、求解结果说明。
聚类分析
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
解题步骤
1、分析题目,确定需求,并表明解题方法。
2、观察数据,进行数据预处理,根据需要转化文字或日期变量为数值变量,可以导入数据查看统计性描述,查看有无缺失值等基本情况,并用平台数据加工模块,填充缺失值。(航空客户类题目删除票价为空的数值)
3、查看异常值,箱线图,说明数据量小,谨慎原则,实际业务数据异常值可能代表一类,不做处理。
4、标准化处理后,用标准化文件进行相关矩阵分析,看是否存在共线性,用KMO确定(是否大于0.3),是否用主成分分析、因子分析,或者直接将相关性很大的变量比值构建新变量进行降维处理。
5、无需降维,直接进行聚类分析,需降维用降维后的新变量进行聚类分析(通常从3类开始测试,查看哪一类轮廓系数较大,选哪类,并联系业务确定是否好分析)。下载结果,导回原数据,透视分类各变量的平均值表,用色阶区分每列,分析每类特点(哪类最多,最少)。
6、根据分类,给予策略建议。
分类分析
分类的概念是在已有数据的基础上学会一个分类函数或者构造出一个分类模型(即我们通常所说的分类器(classifier))。该函数或者模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
解题步骤
1、分析题目,明确自变量、因变量,用什么分类方法解题,构建模型并预测。
2、查看数据表,将数据表分为训练集和测试集,描述性统计性分析,查看有无缺失值,用数据加工填充缺失值。
3、查异常值、共线性,方法如上。
4、标准化后,进行回归分析,查看训练结果和测试结果,多元回归看向后删除数据T检验(系数因变量相关)、F检验(整体相关)的P值是否小于0.05或者题目要求,调整R方是否接近1判定方程拟合度
5、分别判断训练集拟合效果和测试集拟合效果,判定模型是否可以用来预测。构建模型,并解释模型的经济意义。
6、导入预测数据用模型进行预测,并解释说明。
KANO模型
新产品功能开发分析使用该模型
A 魅力属性 M 必备属性 O 期望属性
I 无差别属性 R 反向属性 Q 有问题属性
I 无差别属性 R 反向属性 Q 有问题属性
调查表,一般5分制或者7分制
子主题
KANO模型典型分类表
子主题
KANO图
子主题
解题步骤
1、分析题目,写明需求
2、列调查表
3、列分类表
4、查看数据,计算各功能worse系数、better系数
子主题
5、画better-worse分析图,注意worse为X轴,分区线为平均值
子主题
6、根据功能属性给予开发建议,开发排序:M>O>A>I
PSM模型
用于新产品定价分析
调查各价格四个选项:1、太便宜、2、比较便宜、3、比较贵、4、太贵
解题步骤
1、分析题目,根据调查结果,确定消费者可接受价格区间及最佳定价,给予定价决策建议
2、查看数据有无缺失值
3、累积计算太便宜、开始觉得便宜,开始觉得贵、太贵的各类累积百分比,注意积累方向。便宜是从最低100%,逐步降低,贵是最高是100%
4、计算各价格段不可接受顾客比例=太贵+太便宜,有保留接受顾客=(开始觉得便宜-太便宜)+(开始觉得贵-太贵),可接受顾客比例=100-有保留接受-不可接受
5、绘制可接受和潜在顾客面积图,注意一定选用累积面积图
子主题
6、绘制太贵、开始觉得贵、太便宜、开始觉得便宜累积比例的折线图,进行最优价格及定价区间的确定
子主题
7、说明最优价格点,定价区间,给与定价建议
RFM模型
通过一个客户的最近一次消费(Recency)、消费频率(Frequency)以及消费金额(Monetary)三项指标来描述该客户的价值状况。
解题步骤
1、分析题目需求,列明解题方法
2、分析数据,进行预处理,并得到RFM的数列后;R从小到大排列,以50%分,给予2,1;F从大到小,以50%分,给予2,1;M从大到小,以50%分,给予2,1
3、分成8类组合
子主题
4、分类给予建议和意见
现金流量表
通过净现金流量分析,解决投资分析问题
解题步骤
1、查看题目,研究题目给的相关内容,明确解题思路,分静态动态进行分析
2、列现金流量表
现金流入
主营业务收入、其它业务收入、固定资产回收、流动资金回收
现金流出
固定资产投入、固定资产投资收回调节税(固定资产调节税:【回收-净值(原值-已经提取累积折旧)】* 所得税率)、流动资金投入、营业成本、营业税金及附加
调节所得税
所得税:(收入-成本-折旧)* 所得税
其它成本(机会成本),不能抵税
所得税后净现金流量:流入-流出-所得税-其它成本
累计净现金流量:前一年累计数 + 今年的税后净现金流量 判断静态回收期
每年税后净现金流量现值
内部投资收益率IRR,用资金成本来衡量,小于资金成本不投资,大于投资
累计税后净现金流量现值 最后一年累计值为NPV,NPV也可以用公式,<0不投资,判断动态回收期
获利指数=经营期累计净现值/投资额 > 1,投资;< 1,不投资;= 1,根据情况判断实施或放弃
净现值率=NPV/投资额
3、分析结果
多层次分析
用于供应商方案选择
解题步骤
1、分析题目,列明需求及解题思路
2、列各评分项目,及各评分项目甲乙丙方案的比较矩阵,求几何平均值、特征向量、AW、li、λmax、CI、RI、CR、CR进行一致性判断,>=0.1 不通过
3、调整不通过的比较矩阵,矩阵第一行,第一列不变,按照第一列的比例,调整后面的列,调整完毕后CR为0
4、列层次总排序表,评分项的特征项目,各方案特征向量,λmax、CI、RI、CR、计算总排序权重(哪个方案高,选哪个)
5、整体一致性测试通过后,将方案评分排序注明,并给予建议
经济生产批量
D:每年需求量,K单次生产准备成本,单位库存储存成本,P年生产量
EPQ经济生产批量
子主题
每年生产批次=D/EPQ
最大库存水平=EPQ*(1-D/P)
批次生产时间=EPQ/P;
纯消耗时间=EPQ/D-EPQ/P
纯消耗时间=EPQ/D-EPQ/P
收藏
收藏
0 条评论
下一页
为你推荐
查看更多
抱歉,暂无相关内容