R语言实战-笔记
2019-06-21 16:54:56 22 举报
AI智能生成
《R语言实战》学习笔记
作者其他创作
大纲/内容
回归
最小二乘法OLS回归法
数据条件
正态性
独立性
线性
同方差性
主要函数
lm
summary
P值显著性
R方可解释比例
fitted
residuals
残差查看是否偏离
...
模型
简单线性回归
多项式回归
多元线性回归
cor变量两两间相关系数
car包中的scatterplotMatrix图形表示变量间关系
回归系数含义
其他预测变量不变时,某个预测变量和因变量的关系
有交互项的多元线性回归
lm中使用符号:
回归判断
标准方法
plot生成四幅图
Normal Q-Q图
观察正态性
Residuals vs Fitted图
观察线性
若不为直线可能要加上变换
Scale-Location Graph图
观察同方差性
水平线周围的点应随机分布
Residuals vs Leverage图
观测离群点、高杠杆点、强影响点
改进的方法
car包中的函数
正态性
qqPlot
误差独立性
最好是依据收集数据的方式先验
对于时间独立可以通过durbinWatsonTest判断
线性
crPlot
同方差性
ncvTest
spreadLevelPlot
会给出建议的变换
多重共线性
car包的vif
sqrt(vif)>2明显
异常观测值
离群点
概念
模型预测效果不佳的观测点
通常有很大的正或负的残差
正的残差说明模型低估了响应值
负的残差说明高估了相应值
判断
Q-Q图
car包的outlierTest
只能检验单个点
如果显著,需要删除该点再继续检验
高杠杆值点
概念
与其他预测变量有关的离群点
由许多异常的预测变量值组合起来
与响应变量值没有关系
可能是强影响点,也可能不是
判断
帽子统计量/hat statistic自己写的函数
强影响点
概念
对模型参数估计影响有些比例失衡的点
判断
Cook距离/D统计量
变量添加图/added variable plot
car包的avPlots
一图全含
influencePlot
纵坐标超过+-2的是离群点
横坐标大于0.2或0.3的是高杠杆值
圆圈大小与影响成正比
改进措施
删除观测点
数据记录错误
受试对象误解了指导说明
谨慎
变量变换
不满足正态性
car包的powerTransform
不满足线性
car包的boxTidwell
添加或删除变量
使用其它回归方法
选择最佳回归模型
模型比较
anova
AIC
越小越优先
变量选择
逐步回归
向前逐步回归
向后逐步回归
向前向后逐步回归
MASS包的stepAIC
全子集回归
leaps包的regsubsets
结果用leaps包的plot或car包的subsets绘制
深层次分析
交叉验证
bootstrap包的crossval
相对重要性
标准化
先使用scale对数据标准化
lm拟合后用coef比较标准差
相对权重
relweights自写函数
基础统计分析
描述性统计
定量变量
类别变量
频数表
列联表
K方检验
函数
summary
sapply自定义
Hmisc包的describe
pastecs包的stat.desc
psych包的describe
分组计算
aggregate
doBy包的summaryBy
psych包的describe.by
reshape数据重塑
结果可视化
直方图
密度图
箱线图
点图
类别变量
频数表和列联表
一维列联表
table
二维列联表
xtabs
gmodels包的CrossTable
多维列联表
table/xtabs/ftable
其它相关函数
margin.table
prop.table
addmargins
独立性检验
卡方独立性检验
chisq.test
Fisher精确检验
fisher.test
条件:行或列至少一个大于等于2
不能用于2*2列联表
Cochran-Mantel-Haenszel检验
mantelhaen.test
两个名义变量在第三个变量的每一层中都是条件独立的
相关性度量
assocstats
phi系数
列联系数
Crammer's V系数
vcd包的kapps
混淆矩阵
结果可视化
条形图
马赛克图
关联图
相关系数
连续型/有序型变量
相关类型
相关系数
Pearson积差相关系数
定量变量
Spearman等级相关系数
分级定序变量
Kendall's Tau相关系数
非参数的等级相关度量
函数
cor
相关系数
cov
协方差
偏相关
控制一个或多个定量变量时,另外两个定量变量之间的相互关系
常用于社会科学的研究
ggm包的pcor
其它类型的相关
混合相关矩阵
polycor包的hetcor
相关性的显著性检验
cor.test
每次只能检验一种相关关系
psych包的corr.test
可同时计算相关矩阵和显著性水平
psych包的pcor.test
用于偏相关
psych包的r.test
丰富的功能
可视化
散点图
散点图矩阵
相关图
组间差异
参数检验/t检验
t.test
独立样本
非独立样本
多于两组的情况
方差分析ANOVA
条件:数据从正态总体中抽取
再谈
非参数检验
概念
非参数模型
缺乏总体分布模式的信息
非参数检验
不需要假设总体是否为正态分布或方差是否为齐性的假设检验
两组比较
独立样本
分支主题
wilcox.test
非独立样本
Wilcoxon符号秩检验
wilcox.test,参数不同
多于两组的比较
独立样本
Kruskal-Wallis检验
kruskal.test
只能得出多组整体的比较,两两组之间无法得出
非独立样本
Friedman检验
friedman.test
两两比较
npmc包的npmc
可视化
箱线图
叠加的核密度图
0 条评论
下一页