JMP BIG DATA ANALYSIS
2023-03-18 10:38:26 12 举报
AI智能生成
JM操作系统
作者其他创作
大纲/内容
TERM 2
Big Data and New Marketing
Models
Models
Agile
Dual Transformation
predictive maintenance
intercept
intercept 截距,就是你画一条直线,看看它跟哪个轴相交,然后从那个交点到原点有多远,就是intercept的值
distribution考试里面希望可以看到我们用这些图表得到的背后信息是什么
variable变量
nominal(定类)变量
定类变量的例子有性别(男,女),血型(A,B,AB,O),国籍(中国,美国,日本,等等)
定类变量的分析方法主要是用来检验不同类别之间是否有显著的差异或关联
适合distribution
值可以做t test 和ANOVA
ordinal(定序)变量
定序变量的例子有教育程度(小学,初中,高中,大学,研究生,等等),疗效(痊愈,显效,有效,无效),满意度(非常满意,满意,一般,不满意,非常不满意)
定序变量就是可以按照一定的顺序排列的变量,比如从小到大,从弱到强,从低到高,等等。但是定序变量的值之间的差距不一定是相等的,也不能进行加减乘除等运算。比如,你可以说小学的教育程度比初中的低,初中的比高中的低,高中的比大学的低,这就是一个定序变量。但是你不能说小学的教育程度比初中的低多少,或者小学的教育程度加上高中的教育程度等于什么,这就没有意义了。
适合correlation
continous
continous变量是指可以在某个范围内取任何值的变量。
身高、体重和温度,大小,时间
interval(定距)变量
定距变量的例子有温度(摄氏度,华氏度),日期(公历,农历),智商(IQ)
ratio(定比)变量
定比变量的例子有身高(厘米,米),体重(千克,克),年龄(岁,月,天)
T test
T检验,也称为Student’s t检验,是一种用于比较两个样本或一个样本和一个已知总体的平均值差异的统计方法。T检验的基本思想是,如果两个样本或一个样本和一个总体的平均值差异很大,那么它们很可能来自不同的总体,反之则很可能来自同一个总体。T检验可以用来检验两个样本或一个样本和一个总体的平均值是否有显著差异,也就是说,差异是否超过了随机误差的范围。T检验的结果是一个t统计量和一个p值,t统计量反映了平均值差异的大小,p值反映了差异发生的概率,也就是显著性水平。一般来说,如果p值小于某个预设的阈值(例如0.05或0.01),那么就可以拒绝原假设,认为平均值差异是显著的,否则就不能拒绝原假设,认为平均值差异是不显著的。
T检验的使用场景主要有以下几种:
单样本t检验(one-sample t-test):用于比较一个样本的平均值和一个已知的总体平均值是否有显著差异,例如比较脂肪肝患者的尿素氮值是否高于健康人群。
双样本t检验(two-sample t-test):用于比较两个独立样本的平均值是否有显著差异,例如比较男女学生的数学成绩是否有显著差异。
配对t检验(paired t-test):用于比较两个相关样本的平均值是否有显著差异,例如比较同一组学生在考前和考后的心理压力是否有显著差异。
方差分析(ANOVA):用于比较三个或以上的独立样本的平均值是否有显著差异,例如比较不同品牌的汽车的油耗是否有显著差异。方差分析可以看作是一种推广的t检验,它的原理是将总方差分解为组内方差和组间方差,然后计算F统计量和p值,判断组间方差是否显著大于组内方差。
单样本t检验(one-sample t-test):用于比较一个样本的平均值和一个已知的总体平均值是否有显著差异,例如比较脂肪肝患者的尿素氮值是否高于健康人群。
双样本t检验(two-sample t-test):用于比较两个独立样本的平均值是否有显著差异,例如比较男女学生的数学成绩是否有显著差异。
配对t检验(paired t-test):用于比较两个相关样本的平均值是否有显著差异,例如比较同一组学生在考前和考后的心理压力是否有显著差异。
方差分析(ANOVA):用于比较三个或以上的独立样本的平均值是否有显著差异,例如比较不同品牌的汽车的油耗是否有显著差异。方差分析可以看作是一种推广的t检验,它的原理是将总方差分解为组内方差和组间方差,然后计算F统计量和p值,判断组间方差是否显著大于组内方差。
T检验的适用条件主要有以下几个:
样本数据服从正态分布或近似正态分布,或者样本量足够大(例如大于30)时,可以用中心极限定理来保证正态性。
样本数据是随机抽取的,即每个样本点都是独立的,不受其他样本点的影响。
如果是双样本t检验或方差分析,还需要满足样本的方差齐性,即不同样本的方差相等或近似相等,可以用Levene检验或F检验来检验方差齐性。
T检验是一种常用的假设检验方法,它可以帮助我们在有限的样本数据的基础上,对总体的平均值差异进行推断和判断
样本数据服从正态分布或近似正态分布,或者样本量足够大(例如大于30)时,可以用中心极限定理来保证正态性。
样本数据是随机抽取的,即每个样本点都是独立的,不受其他样本点的影响。
如果是双样本t检验或方差分析,还需要满足样本的方差齐性,即不同样本的方差相等或近似相等,可以用Levene检验或F检验来检验方差齐性。
T检验是一种常用的假设检验方法,它可以帮助我们在有限的样本数据的基础上,对总体的平均值差异进行推断和判断
regression test
fail to reject,ct hypothesis
direcational的里面我们给出higher lower positive negative这些词汇对数据进行定义
就是我们希望看到的数据的高低对比,而不是显著的差异
undirecational里
适合用difference 或者impact
在undirecational里我们是希望看到的是数据的差异
correlation
它是一种统计学的概念,用来衡量两个或多个变量之间的关系,以及它们是如何变化或影响彼此的
Variation是指数据的离散程度,也就是数据与其均值的偏差大小。Variation可以用方差、标准差等统计量来衡量。Variation反映了数据的不确定性,也是统计推断的基础。
Prediction是指根据已有的数据,估计未知数据的结果。Prediction可以用回归分析、机器学习等方法来实现。Prediction的目的是提高预测的准确性,而不一定关心数据之间的因果关系。
Explanation是指根据数据,分析数据之间的联系,推断数据背后的规律和原因。Explanation可以用描述性统计、推断性统计、假设检验等方法来实现。Explanation的目的是提高数据的可理解性,而不一定关心预测的精度。
Prediction是指根据已有的数据,估计未知数据的结果。Prediction可以用回归分析、机器学习等方法来实现。Prediction的目的是提高预测的准确性,而不一定关心数据之间的因果关系。
Explanation是指根据数据,分析数据之间的联系,推断数据背后的规律和原因。Explanation可以用描述性统计、推断性统计、假设检验等方法来实现。Explanation的目的是提高数据的可理解性,而不一定关心预测的精度。
这三个概念在统计学中都很重要,它们可以相互补充,也可以相互制约。一般来说,数据的variation越大,prediction和explanation的难度就越大。prediction和explanation之间也有一定的平衡,有些方法可以提高prediction的效果,但降低explanation的效果,反之亦然。统计学的目标是在保证数据的variation、prediction和explanation之间的平衡的前提下,提取数据中的有用信息,帮助我们更好地理解和控制现实问题。
RSq是R squared的缩写,也叫做决定系数或拟合优度,它是一个统计量,用来衡量回归模型对因变量的变异性的解释程度
RSq(决定系数)是一个衡量回归模型拟合优度的指标,它表示自变量能够解释因变量变化的程度。RSq的值越接近1,说明回归模型越能够捕捉到数据的变化,残差平方和越小。RSq的值越接近0,说明回归模型越不能反映数据的变化,残差平方和越大。
因此,RSq解释程度低代表回归模型的拟合效果不好,自变量对因变量的影响不显著,可能需要增加或减少自变量,或者选择其他的回归方法。
因此,RSq解释程度低代表回归模型的拟合效果不好,自变量对因变量的影响不显著,可能需要增加或减少自变量,或者选择其他的回归方法。
(XX数字%) variation in 因变量 is captured by this model
p value低于0.05即为有统计学差异,意味着有分析的价值
VIF是方差膨胀因子(Variance Inflation Factor)的缩写,是一种用于检测多重共线性的统计指标。多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数的估计不准确和不稳定。
数字大于4即为高度重复,要删除,如果不删除,我们解释的时候其实在讲多遍相同的自变量和因变量关系
over fiting
under fiting
binary
binary在统计学里是什么意思呢?它是一种用于表示只有两种可能值的变量的术语,例如0和1,是和否,成功和失败等
Model validation是模型验证的意思,是一种用于评估模型的准确性和适用性的方法。
Training Data是训练数据的意思,是用于建立模型的数据,让模型学习数据中的规律和特征。
Validation Data是验证数据的意思,是用于检验模型的数据,让模型在没有见过的数据上进行预测,评估模型的泛化能力和预测能力。
举个通俗的例子,假设你要做一个识别猫和狗的模型,你有1000张猫和狗的图片,你可以把其中800张作为Training Data,用来训练模型,让模型学习猫和狗的特征,比如毛色,耳朵,尾巴等。然后你可以把剩下的200张作为Validation Data,用来验证模型,让模型在没有见过的图片上判断是猫还是狗,评估模型的准确率和稳定性。
Training Data是训练数据的意思,是用于建立模型的数据,让模型学习数据中的规律和特征。
Validation Data是验证数据的意思,是用于检验模型的数据,让模型在没有见过的数据上进行预测,评估模型的泛化能力和预测能力。
举个通俗的例子,假设你要做一个识别猫和狗的模型,你有1000张猫和狗的图片,你可以把其中800张作为Training Data,用来训练模型,让模型学习猫和狗的特征,比如毛色,耳朵,尾巴等。然后你可以把剩下的200张作为Validation Data,用来验证模型,让模型在没有见过的图片上判断是猫还是狗,评估模型的准确率和稳定性。
missclassification
missclassification rate是一个机器学习中的指标,用来表示分类模型预测错误的观测值的百分比。
(不需要记住,但可以看一下,理解内在逻辑)它的计算公式是:
missclassification rate = 错误预测的数量 / 总预测的数量
举个例子,假设你有一个模型,用来预测篮球运动员是否会得分,你有100个观测值,其中有80个是正类(得分),20个是负类(不得分)。你的模型预测了其中的40个正类,10个负类,但是有15个正类和10个负类预测错误了。那么你的模型的missclassification rate就是:
missclassification rate = (15 + 10) / 50 = 0.52
这意味着你的模型预测错误了50%的观测值。missclassification rate的反面是准确率(accuracy),它表示模型预测正确的观测值的百分比。
准确率 = 1 - missclassification rate
准确率 = 1 - 0.5 = 0.52
这意味着你的模型预测正确了50%的观测值。
missclassification rate是一个简单的指标,但是它有一个缺点,就是它不能区分正类和负类的预测错误,也不能反映数据集的不平衡性(当正类或负类的比例非常高或非常低时)。3在这种情况下,missclassification rate可能会给出一个误导性的评估。
(不需要记住,但可以看一下,理解内在逻辑)它的计算公式是:
missclassification rate = 错误预测的数量 / 总预测的数量
举个例子,假设你有一个模型,用来预测篮球运动员是否会得分,你有100个观测值,其中有80个是正类(得分),20个是负类(不得分)。你的模型预测了其中的40个正类,10个负类,但是有15个正类和10个负类预测错误了。那么你的模型的missclassification rate就是:
missclassification rate = (15 + 10) / 50 = 0.52
这意味着你的模型预测错误了50%的观测值。missclassification rate的反面是准确率(accuracy),它表示模型预测正确的观测值的百分比。
准确率 = 1 - missclassification rate
准确率 = 1 - 0.5 = 0.52
这意味着你的模型预测正确了50%的观测值。
missclassification rate是一个简单的指标,但是它有一个缺点,就是它不能区分正类和负类的预测错误,也不能反映数据集的不平衡性(当正类或负类的比例非常高或非常低时)。3在这种情况下,missclassification rate可能会给出一个误导性的评估。
cluster analysis
聚类分析是一种把数据对象 (观测)划分成多个组或簇的过程,使得簇内对象具有很高的相似性,但簇与簇之间的对象不相似
在analysis里面就可以看到哪个区间占用的最大了,所以在这里,主要是分析具体区间内容的差别
只做了Behaviour ,如果是考试里,我们基本就是做demograpics,解释一下distribution,这些数据体现了什么,可以根据数据说我们更应该关注于什么客户
needs attitude behaviour
factory analysis
我看到数据之间联系强烈,所以选择factory analysis
因子分析是一种统计方法,用来识别影响可观察变量的潜在因子。因子分析可以用于市场研究和分析决定消费者行为的变量。因子分析有以下优点:
- 它可以帮助理解大量数据之间的相互关系
- 它可能指出一些不太明显的关系
- 它可以指出与消费者品味,偏好等相关的潜在关系
- 它可以使数据压缩和相关性分析更容易,也可以更容易地从市场研究和分析中收集的数据中得出结论
因子分析有多种类型,常见的有探索性因子分析(EFA),确认性因子分析(CFA)和主成分分析(PCA)。使用因子分析时,需要一个取连续数值的变量。
在统计学里,因子分析什么时候使用?用来做什么?这取决于你想要回答什么样的问题。一般来说,如果你想要发现数据中存在哪些潜在因子,并且不确定它们之间有什么关系,你可以使用探索性因子分析(EFA)。如果你已经有了一些理论或假设关于潜在因子是什么,并且想要检验它们是否与数据相符合,你可以使用确认性因子分析(CFA)。如果你只想要简化数据,并且不太关心潜在因子的实际意义,你可以使用主成分分析(PCA)。
- 它可以帮助理解大量数据之间的相互关系
- 它可能指出一些不太明显的关系
- 它可以指出与消费者品味,偏好等相关的潜在关系
- 它可以使数据压缩和相关性分析更容易,也可以更容易地从市场研究和分析中收集的数据中得出结论
因子分析有多种类型,常见的有探索性因子分析(EFA),确认性因子分析(CFA)和主成分分析(PCA)。使用因子分析时,需要一个取连续数值的变量。
在统计学里,因子分析什么时候使用?用来做什么?这取决于你想要回答什么样的问题。一般来说,如果你想要发现数据中存在哪些潜在因子,并且不确定它们之间有什么关系,你可以使用探索性因子分析(EFA)。如果你已经有了一些理论或假设关于潜在因子是什么,并且想要检验它们是否与数据相符合,你可以使用确认性因子分析(CFA)。如果你只想要简化数据,并且不太关心潜在因子的实际意义,你可以使用主成分分析(PCA)。
上栗子
分析什么是因变量,可以公司要干嘛,比如一般就是要销售
impact effect explainnation predicition segementaion,drive
drive impact explaintiomn
forcost prediction
any groupt catergaiorus segementation
cluster
factors
需要有强烈关联性的变量
专注于的是行动的特征behaviour 所以只选了问卷调查
看到了许多高亮的数字,所以可以说是有些地方是有关联的
预测,划分
Explanation看一下关于MOTD JMP回放的前半部分
考试
回答注意点
Identify problem/opportunity
专注于一些Key words
What Drives
What Explain
What effects
What affects
What Impacts
collecting data
identify the causes
problem statement
what
when
where
how much/ how many
problem statement是为了让所有人对问题有相同的理解
solving problem
开篇介绍一下数据的背景,以及公司感兴趣的方向以及问题,简要阐述一下
Correlation不是必做的,如果Distribution的数据里有着强关联性,那么可以做Fit Y by X ,然后记住FIT Y by X是做单因素分析的
要做也是根据你自己的假设做
JMP操作逻辑
先做Missing Data Pattern
第一个属于没有Missing的,框住第一个以外的所有的,Hide and Exclude
这样就排除了Missing Columns,来干扰我们的数据了
exploration
先做distribution,看看整体上这个图的分布情况
这时候根据题目有一个假设,带着假设我们更方便去看图中的数据分布情况
把所有东西全部丢进去,然后选择只显示直方图,因为我们只是要在distribution里看数据的分布情况
分析完distribution后,根据分布我们要再提出一个新假设,到fit y by x 里去验证,也即是去验证哪个部分的变量有影响
但如果想看一下相关性,就要做multivariate
目的是为了找出correlation
相关性(correlation)
然后再做fit y by x,看哪个变量有明显的区别
这时候要看每个模型的数据类型来决定是做t test 还是fit line
t test 分两种情况,如果图里的数据明显有着相似性或者集中在一起,那么大概率就是equal variance
反之则是unequal variance
反之则是unequal variance
equal variance做Means Anova Pooled t
正常情况下直接看分布就行
euqal variance的确认方法,回到主界面选择你要确认的变量选择distribution,单独做一个distribution然后加一个local data filter,选择对应变量,看他的分布,分布稳定或者属于uniform 或者norminal就是eual variance
unequal variance做Means and Std Dev
选择完对应的T test 要compare Means
Each Pair Students'T,在这里我们才可以看到P value,才能看到它的RS squre
选择完以后如果model旁边的圆圈有一个单独出去,那么这个变量即为有 significant difference
这个直接看P value 就行,因为我们这里是要分析变量之间的相关性correlation也即有没有significant difference
看p 值的时候,根据前面的变量有没有significant difference,可以假定A和B,因为可能7.8个数据都一个样子也即都属于B分类,那么就可以说compare A and B,A has significant difference
fit line是变量属于continous 时做的,看它的p value就行,p valuie大于0.05就是没有signifiacnt difference,不必深究
我们可以做一个Graph Builder,因变量放在Y,我们挑选好的自变量,一个放在X一个放在overlay,放在x的部分是我们实际想要对overlay 部分自变量进行图像化对比的部分
操作步骤,Graph, Graph Builder,放入自变量因变量overlay后,选择上面的第三个Line of fit
这张图举例Y是Total Purchase X是Marketing Spend ,overlay可以放segements counrty,等
以这张图举例,蓝色部分的电子配件market spend is chaper ,但如果对于公司来说投入更多的钱在packaging上回报更高
对于这个图的内部逻辑是,counrtry segements都属于moderator,也即影响mediator(假设为awarness)对于自变量与因变量的作用
不重要,下学期的内容,理解就行
再以这张图分析,英国虽然整体投资市场效果很好,但是如果单论投资哪个市场影响最大,那就是挪威,NDL,因为倒回去看FIt Model 里的Parameter Estimate 挪威高于英国
之后根据Graph Builder的情况,根据变量的情况,我们可以选择做Fit Model里的,Macros Full factorial,在这里我们可以得到更详细的数据,从而帮助我们决定到底投资于哪个市场
做multivariate 看数据之间的相关性(correlation)
multivariate
操作步骤
Density Ellipses
Show correlations
Matrix Options
Heat Map
Show Histogram
Horizontal
红色的是positive correlation,蓝色的是negative correlation
关注图中的形状以及分布,不要去盯着数据
也即density
数据的强度,接近于1或者-1的为强
描述特定数据的时候,先说density强密集,数字接近1,颜色深
explanation
我们现在做的是regression
做fit model
在进行FIt Model 之前要看一下,你想要测量的变量情况是不是你想要的,比如Binary时,你想测NO,默认可能是YES
看rs suqre,rs squre属于50%-60%的是非常好的,越接近1 越好,解释的时候我们说:XX%的因变量is captured by this model,也即百分之多少的数据可以被这个模型解释
看P value,只要P value 小于0.05 即为有统计学意义,也即有显著差异性,也即有分析的意义
然后做VIF 膨胀因子,删除所有大于四的数据,根据定义,大于4的数据属于重复解释一样的东西,会影响模型准确性
先删除ordinal变量,因为ordinal变量不属于fit model观测部分
然后删除Pvalue 大于0.05的变量
要注意一个个删除,因为如果整个删除JMP系统会认为你要看的是所有一起删除带来的影响,但你实际需要的是一个个删除后,观察P值不断的变化和RS Squre的变化,
这里要注意如果删除的就剩一条了,我们想要更多信息比如这一条就是我们关注的,但里面内涵了多个信息,左上角Estimates,Expand Estimates这样我们就能获得细节了
删除后我们就开始着手描述不同的变量
如果是norminal的变量,描述的时候我们说如果我们在这个norminal变量,我们价格会增长XXX(具体数据from estimate)
如果是continous变量,描述的时候我们说,如果XXcontinous 变量增长one unit ,price 会增长XXX(具体数据来源estimate)
具体什么会增长,根据你的因变量是啥
分析图里的分布,是否为集中而且相似的,集中且相似的即为significant
然后我们重新再做一个fit model,只挑选我们会觉得需要独立对比的自变量,和因变量进行fit model试验
这时候我们加上local data filter,对比每一个不太的自变量之间情况
先看p value 小于0.05才有意义
然后看parameter estimate 的数据对比,然后根据这里面的数据对比,我们挑选出一个因变量最有意义的
prediction
然后做predicting,在这一步,我们不只是解释样本数据,同时对样本数据做出预测
要注意例如题目问predicting 不能直接做predicting要把前面的exploration correlation 做完,再去做prediction
注意: 我们做decision tree的时候是因为churn 的vairable是True False ,即binary variable,我们不会做decision tree for continous variable
binary variable,二进制YES NO ,TRUE FALSE
这里的churn即客户离开我们不离开为False离开为True
操作步骤
右键variable名称,选择column info,选择column properties,选择value color,就可以给选定的变量改变颜色了
这一步目的是为了后续decision tree里面的True False颜色不同,方便我们区分和分清楚分布情况
Analyze, Predictivie Modeling,选择Partition,选择因变量Y,以及自变量X
举例Analyze,Partition,选择Churn作为因变量,因为我们要分析其他变量对这个Binary变量的影响
这里选择了除state和validation
stae是一个norminal变量,我们在这个题里要分析的是具体数值对于churn的影响,所以不包括state
validation是用来验证数据的,所以也不包括
color points
让我们根据颜色区分分布情况
split
让我们能看到哪些因素对churn有什么影响,有多大影响
每一个split代表着不同自变量对于因变量有多大影响
split History
具体分裂几次看Split History的曲线,刚要接近平稳的那个数值即为最合适的分裂次数
Roce Curve
曲线弯折的地方,越接近于1即左上角。(越靠近1曲线覆盖的面积越大),即为预测模型效果好的
如果靠近或处于对角线,接近于0.5即为效果差,(面积也变小)说明这个预测模型解释不了组内数据
如果靠近或处于对角线,接近于0.5即为效果差,(面积也变小)说明这个预测模型解释不了组内数据
colume contribution
做这个可以看到哪个部分贡献最多
Show Fit Details
看Generalized Rs squre
越接近1越好
how much variation is capture by this model
再看Misclassification Rate
越低越好
越低的值意味着,整个模型对于预测的分析错误率越低
Make Validiation Column
Analyze Predictive Modeling ,Make Validiation Column
把想要分析的的部分全部放在Stratification Columns
在random seed部分里输入一个数字例如1
注意如果是现实世界里,要确保使用这个数据的人都是用randm seed 1
这样就创造第二个(validiation2)
再做一遍partition
选择因变量和自变量,但这次要把validiation2放在validiation里
Save Columns,Save Prediction Formula
这里的结果在主页里会体现,Most likely 自变量,会根据Binary的大小而决定
Profiler
Graph Profiler
Prob(自变量==Binary特性)
当我们在profiler里输入特定的数字,我们可以看到图中的True or False变化,
这可以帮助我们去甄别(当我们有特定的数字想要测试时),In Reality,Profiler可以帮助我们决定哪个数字是我们的sweet spot
这可以帮助我们去甄别(当我们有特定的数字想要测试时),In Reality,Profiler可以帮助我们决定哪个数字是我们的sweet spot
根据图里内容我们可以说,当Day minutes大于236的时候人们会不愿意继续进行电话交谈,也即False会下降,人们会离开我们
要注意:老师要的答案是Binary的大小近似相同的
这个图这样解释就可以了,因为我发现系统得出来的数据有时候不一样,即使你操作完全相同。
老师说了这个也不细致考察,知道这个是干嘛的就行,但要在考试的时候解释一下
老师说了这个也不细致考察,知道这个是干嘛的就行,但要在考试的时候解释一下
关于数据不一样这点,老师说不太重要,重要的是我们的分析步骤,方式,解读正确就可以
因为版本不一样或者移动了什么东西就会导致数据不同(我说TMD怎么我的数据老是和她不一样,做的明明一模一样)
左下角Expand Intermediate Formulas
Fit Model
因变量放入Y,自变量放入X,Validiation2放入Validiation
一个个删除P值大于0.05的
分析Fit Model 里的 Rs suqre数值与Misclassification Rate
左上角Save Probability Formula
左上角Profilier
然后找到Binary两者大小近似相同的
Neural
Analyze,Predictive Modeling,Neural
因变量放入Y,自变量放入X,Validiation2放入Validiaion,然后GO(不要改任何东西,默认就行)
点击第二个小三角,Profiler
save formula
Model compersion
Analyze,Predictive Modeling,Model compersion
compares apple to apple,如果对比False 就全选False,也即选择Binary的一个特性时,全部选择一样的特性
都放在Y因变量就可以
选择Rs squere 高Missclassification低的就行,但要注意如果变量两者差距大的话选择第二个大且稳定的值,作为最后prediction的结果
Segmentation
cluster analysis
操作步骤
一般用于大的segementaion
分析的数据类型group items entities, people
根据行为behaviour或者需求need,Attitude态度.Life styale ,Preference分类,semengts
先做exploration,也即distribution,直方图only
在考试里,截屏这个画面,然后说说你做了什么,以及为什么这么做,以及你从这个图里大概看出了什么,比如哪个自变量比较有明显特征
然后做Hierarchical Cluster
analyze Cluster Hierarchical Cluster
不选brand 这种norminal变量,是因为我i们做聚类分析是根据特性characteristics来分类的
而brand 这个变量没有特性也即没有意义对其进行cluster analysis
而brand 这个变量没有特性也即没有意义对其进行cluster analysis
做完会得到Dendrogram,也即树状图
调整下面的曲线,把曲线与直线的交汇点移到接近于flat的点,也即在这个时候我们该停止clustering
左上角三角,选择Number of Clusters,直接在里面输入数字就可以调整曲线
记住这个曲线是从右往左看
一般3-5是比较好的数字,但自己也要调整,,调整的意思是例如Cluster 1 和4 重复了,那我们就把Number of Clusters变成3,
左上角然后cluster summary
Color Clusters
Mark Cluster
Save Cluster
这时候会在主页面出现一个新的column
Cluster Column
回到主页面,右键点击Cluster Colum,Recode
根据cluster summary数据和下方的图,表现出来的分布情况,对不同的cluster 进行命名,选择recode
命名完注意要选择左上角的in place,然后recode
Scatterplot 3D
做这个的意义是,有时候我们做cluster analysis的时候很难在相似的数据里分析出什么
所以做一个Scatterplot 3D model 能更好的帮助我们解释数据分布情况
所以做一个Scatterplot 3D model 能更好的帮助我们解释数据分布情况
内容与cluster summary一样,只是更加直观更加视觉化表达了
操作步骤
将continous变量放入因变量Y,然后将我们设置好的Cluster 放入Coloring
右键cluster 将color 和Marker与对应的主页面(data set)Cluster调成一模一样的
然后可以做一个multivariate,去分析一下correlation的情况
可以看到左下角的分布是高度相关的,也意味着Alchol和calorie是高度相关的,
然后再做一个distribution,分析一下数据的分布情况
例如分析不同变量对于我们定义的Cluster的反应
例如之前我们分析的是不同的变量之间可能的联系
这时候我们就可以跳出产品范围,去关注价格销售和Cluster 之间的关系
这时候可以再做一个Fit Model来解释我们想要promotion的市场或群体,分类
如果发现数据之间相似性较强,可以做MDSMultidimensional scaling,帮助我们分析变量之间的相似度差异度,根据MDS的二维图的距离
注意!不考!
cluster 的流程走一遍save cluster,然后做Multidimensional scaling
Analyze, Multivariate Method, Multidimensional Scaling
Data Format调成Attribute List
下方的set dimension根据情况选择
运行后点左上角3d Plot即可调成3D模型
factor analysis
分析的数据类型variable interest
也即数据高度highly coorelated的情况时,做factor analysis
也即我们做完distribution multivariate,分析完correlation,如果有多个变量有联系,那么我们就做factor analysis
即找出具体哪几个factors对这几十个variable有最大的影响
在考试的时候允许将segements,作为factors,现实不行
目的
simplify the data
回答方式举例
Distribution分析分布情况,有没有明显特征
然后做Correlation去看看有没有潜在的关联性
然后做Factor Analysis,然后解释具体每一项factor代表着什么segements,大概什么意思,要基于数据里展现的,合理猜想Factor会是什么segements
然后做Fit Model,从而能更细致的看到
最后描述的时候只将上述的关键数据描述在报告里,而这份报告是要得出一些实际的implication的,也即解决方法的
比如Parameter Estimates里有多个数据但我们只解释特征最明显的,给出建议
操作步骤
Distribution,Correlation 先做一遍
Factor Analysis
选择相关变量到Y
然后看EigenValue
EigenValue大于1的
也即图里那根虚线
只挑选EigenValue大于1的数字越大越好,我们再去看Cum Percent意思是多少的数据被我们的模型captured(越高越好)
go
先看Commuality Estimates,这里解释的是每一个variable被这两个factor,captured的程度
高即解释程度高,低即解释程度低
也即fatcor对变量的解释程度
也即fatcor对变量的解释程度
也即意味着我们摘除big discrepancy部分
再看Factor Loading
分析不同factor 里面哪个variable数据高
哪个数据在两个factor里都不重要
XXX is not loading well on any of them
根据variable的特性,对factor 做一个总结,比如sensoring price,cost
如果我们想要删除不需要的factor(某些factor不具有显著统计特征)
回到上面的Model Lunch,输入X再运行一遍就可以得到一个新的含有不同factor 的模型
之后我们发现某一个数量的Factor已经有明显特征的时候,我们可以使用下方的Suppress Absolute Loading Value less Than 0.5
save fatcor score
在Model Launch下面的小三角里
会存factor 1 factor2到data set 里
对两个factor 进行命名,右键column info
考试建议使用词汇
indication
significant
competencies
demographics
人口特征,人口的年龄,性别,收入这些
在什么时候做什么分析
分析两个变量的时候用T TEST
分析三个或多个变量的时候用ANOVA
什么时候做distribution
用于描述一个连续变量的分布特征当你想查看一个变量的最大值、最小值、均值、标准差、四分位数、直方图、箱线图等时可以做T TEST
什么时候做FIt Y by X
用于探索一个连续变量和一个分类变量或两个连续变量之间关系的,
检验两个分类变量之间是否有关联性
想比较不同组的均值是否有显著差异
概念疑惑
Adding local data filter
概念:添加本地数据过滤器就是在JMP报告中给你的图表或分析结果加一个筛选器,让你可以根据你感兴趣的变量值来看不同的结果,而不会影响其他的图表或分析结果。
例子:如果你有一个数据表包含了男生和女生的身高和体重,你想看一下男生和女生之间有没有身高体重的差异,你可以用拟合Y和X平台来画一个散点图矩阵,并添加一个本地数据过滤器,让你可以选择只看男生或只看女生的散点图矩阵,而不会改变数据表里的数据。
例子:如果你有一个数据表包含了男生和女生的身高和体重,你想看一下男生和女生之间有没有身高体重的差异,你可以用拟合Y和X平台来画一个散点图矩阵,并添加一个本地数据过滤器,让你可以选择只看男生或只看女生的散点图矩阵,而不会改变数据表里的数据。
分布代表着什么
Right skew: 右偏态,是一种分布的形状特征,表示分布的右尾部比左尾部更长。右偏态的分布中,均值和中位数都大于众数。右偏态的分布通常出现在有下限而没有上限的数据中,例如收入、年龄、考试成绩等。
Left skew: 左偏态,是一种分布的形状特征,表示分布的左尾部比右尾部更长。左偏态的分布中,均值和中位数都小于众数。左偏态的分布通常出现在有上限而没有下限的数据中,例如寿命、反应时间、错误次数等。
Uniform: 均匀型,是一种分布的形状特征,表示分布在所有可能值上都有相同或近似相同的概率密度。均匀型的分布中,均值、中位数和众数都相等或不存在。均匀型的分布通常出现在随机选择或抽样的数据中,例如掷骰子、抓阄、抽奖等。
Normal: 正态型,是一种分布的形状特征,表示分布呈钟形曲线,并且对称于均值。正态型的分布中,均值、中位数和众数都相等。正态型的分布通常出现在由多个因素影响而受到随机误差干扰的数据中,例如身高、体重、智商等。
Bimodal: 双峰型或双模型,是一种分布的形状特征,表示分布有两个明显且接近相等高度(概率密度) 的峰值。双峰型的分布可以有一个或多个众数,并且可以对称或不对称。双峰型 的 分 布 通 常 出 现 在 由 两 个 或 多 个 不 同 群 体 或 子 集 合 组 成 的 数 据 中 ,例 如 性 别 、 血 型 、 肤 色 等 。
JMP内容如何阅读,内容什么意思
方框里的菱形(diamond)越小我们可以说We have more certainty,也就是说下面那个更好
fit model
首先看Rs squre,50-60的数据是非常好的了,越接近1的越好,Rs squre解释的是,自变量于因变量之间的变化关系影响显著
再看P value
比如volume部分,首先低于0.05,其次因为低于0.05那么每增加1unit那么价格就会增长0.0047
还有一点就是VIF,数字大于4即为高度重复,要删除,(从大的开始删除)如果不删除,我们解释的时候其实在讲多遍相同的自变量和因变量关系
红色部分为norminal变量,黄色部分为continous变量
0 条评论
下一页