深入浅出数据分析
2020-04-07 12:07:18 0 举报
AI智能生成
深入浅出数据分析
作者其他创作
大纲/内容
深入浅出数据分析
8 启发法 凭人类的天性作分析
邋遢集向市议会提交了报告
邋遢集确实把镇上打扫得干干净净
邋遢集已经计量了自己的工作效果
他们的任务是减少散乱垃圾量
计量垃圾量不可行
问题刁钻,回答简单
数据邦市的散乱垃圾结构复杂
无法建立和运用统一的散乱垃圾计量模型
启发法是从直觉走向最优化的桥梁
使用快省树
是否有更简单的方法评估邋遢集的成就?
固定模式都具有启发性
分析完毕,准备提交
看来你的分析打动了市议会的议员们
9 直方图 数字的形状
员工年度考评即将到来
伸手要钱形式多样
这是历年加薪记录
直方图体现每组数据的发生频数
直方图不同区间之间的缺口即数据点之间的缺口
安装并运行R
将数据加载到R程序
R创建了美观的直方图
用数据的子集绘制直方图
加薪谈判有回报
谈判要求加薪对你意味着什么?
10 回归 预测
你打算怎么花这些钱?
以获取大幅度加薪为目的进行分析
稍等片刻……加薪计算器!
这个算法的玄机在于预测加薪幅度
散点图数据点
用散点图比较两种变量
直线能为客户指明目标
使用平均值图形预测每个区间内的数值
回归线预测出人们的实际加薪幅度
回归线对于具有线性相关特点的数据很有用
你需要用一个等式进行精确预测
a代表Y轴截距
b代表斜率
让R创建一个回归对象
回归方程与散点图密切相关
加薪计算器的算法正是回归方程
你的加薪计算器没有照计划行事……
11 误差 合理误差
客户大为恼火
你的加薪预测算法做了什么?
客户组成
要求加薪25%的家伙不在模型范围内
如何对待想对数据范围以外的情况进行预测的客户
由于使用外插法而惨遭解雇的家伙冷静下来了
你只解决了部分问题
扭曲的加薪结果数据看起来是什么样子?
机会误差=实际结果与模型预测结果之间的偏差
误差对你和客户都有好处
机会误差访谈
定量地指定误差
用均方根误差定量表示残差分布
R模型知道存在均方根误差
R的线性模型汇总展示了均方根误差
分割的根本目的是管理误差
优秀的回归分析兼具解释功能和预测功能
相比原来的模型,分区模型能更好地处理误差
你的客户纷纷回头
12 关系数据库 你能关联吗?
《数据邦新闻》希望分析销量
这是他们保存的运营跟踪数据
你需要知道数据表之间的相互关系
数据库就是一系列相互有特定关系的数据
找到一条贯穿各种关系的路线,以便进行必要的比较
创建一份穿过这条路径的电子表格
通过汇总将文章数目和销量关联起来
看来你的散点图确实画得很好
复制并粘贴所有这些数据是件痛苦的事
用关系数据库管理关系
《数据邦新闻》利用你的关系图建立了一个RDBMS
《数据邦新闻》用SQL提取数据
RDBMS数据可以进行无穷无尽的比较
你上了封面
13 整理数据 井然有序
刚从停业的竞争对手那儿搞到一份客户名单
数据分析不可告人的秘密
Head First猎头公司想为自己的销售团队搞到这份名单
清理混乱数据的根本在于准备
一旦组织好数据,就能修复数据
将#号作为分隔符
Excel通过分隔符将数据分成多个列
用SUBSTITUTE替换“^”字符
所有的“姓”都整理好了
用SUBSTITUTE替换名字模式太麻烦了
用嵌套文本公式处理复杂的模式
R能用正则表达式处理复杂的数据模式
用sub指令整理“名”
现在可以向客户交货了
可能尚未大功告成……
为数据排序,让重复数值集中出现
这些数据有可能来源于某个关系数据库
删除重复名字
你创建了美观、整洁、具有唯一性的记录
Head First猎头公司正在一网打尽各种人才!
再见……
数据邦感谢您的光临!
附录A:尾声 正文未及的十大要诀
其一:统计知识大全
其二:Excel技巧
其三:耶鲁大学教授Edward Tufte (爱德华·塔夫特)的图形原则
其四:数据透视表
其五:R社区
其六:非线性与多元回归
其七:原假设-备择假设检验
其八:随机性
其九:Google Docs
其十:你的专业技能
附录B:安装R 启动R!
R起步
附录C:安装Excel分析工具 ToolPak
在Excel中安装数据分析工具
数字
符号
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
本书荐辞
深入浅出系列图书美誉
谁适合阅读本书?
谁该和本书说拜拜?
我们了解你在想什么
我们了解你的大脑在想什么
元认知:对思考的思考
我们的做法
你的任务:征服大脑
自述
技术顾问组
1 分解数据 数据分析引言
Acme化妆品公司需要你出力
首席执行官希望数据分析师帮他提高销量
数据分析就是仔细推敲证据
确定问题
客户将帮助你确定问题
Acme公司首席执行官给了你一些反馈
把问题和数据分解为更小的组块
将大问题划分为小问题
将数据分解为更小的组块
现在再来看看了解到的情况
评估组块
分析从你介入的那一刻开始
提出建议
报告写好了
首席执行官欣赏你的工作
一则新闻
首席执行官确信的观点让你误入歧途
你对外界的假设和你确信的观点就是你的心智模型
统计模型取决于心智模型
心智模型应当包括你不了解的因素
首席执行官承认自己有所不知
Acme给你发来了一长串原始数据
深入挖掘数据
泛美批发公司确认了你的印象
回顾你的工作
你的分析让客户做出了英明的决策
2 实验 检验你的理论
咖啡业的寒冬到了!
星巴仕董事会将在三个月内召开
星巴仕调查表
务必使用比较法
比较是破解观察数据的法宝
价值感是导致销售收入下滑的原因吗?
一位典型客户的想法
观察分析法充满混杂因素
店址可能对分析结果有哪些影响
拆分数据块,管理混杂因素
情况比预料的更糟!
你需要做一个实验,指出哪种策略最有效
星巴仕首席执行官已经急不可待
星巴仕降价了
一个月后……
以控制组为基准
避免解雇123
让我们重新认真做一次实验
实验照样会毁于混杂因素
精心选择分组,避免混杂因素
随机选择相似组
随机访谈
准备就绪,开始实验
结果在此
星巴仕找到了与经验吻合的销售策略
3 最优化 寻找最大值
现在是浴盆玩具游戏时间
你能控制的变量受到约束条件的限制
决策变量是你能控制的因素
你碰到了一个最优化问题
借助目标函数发现目标
你的目标函数
列出有其他约束条件的产品组合
在同一张图形里绘制多种约束条件
合理的选择都出现在可行区域里
新约束条件改变了可行区域
用电子表格实现最优化
Solver一气呵成解决最优化问题
利润跌穿地板
你的模型只是描述了你规定的情况
按照分析目标校正假设
提防负相关变量
新方案立竿见影
你的假设立足于不断变化的实际情况
4 数据图形化 图形让你更精明
新军队需要优化网站
结果面世,信息设计师出局
前一位信息设计师提交的三份信息图
这些图形隐含哪些数据?
体现数据!
这是前一位设计师主动提供的意见
数据太多绝不会成为你的问题
让数据变美观也不是你要解决的问题
数据图形化的根本在于正确比较
你的图形已经比打入冷宫的图形更有用
使用散点图探索原因
最优秀的图形都是多元图形
同时展示多张图形,体现更多变量
图形很棒,但网站掌门人仍不满意
优秀的图形设计有助于思考的原因
实验设计师出声了
实验设计师们有自己的假设
客户欣赏你的工作
订单从四面八方滚滚而来!
5 假设检验 假设并非如此
给我来块“皮肤”……
我们何时开始生产新手机皮肤?
PodPhone不希望别人看透他们的下一步行动
我们得知的全部信息
电肤的分析与数据相符吗?
电肤得到了机密《战略备忘录》
变量之间可以正相关,也可以负相关
现实世界中的各种原因呈网络关系,而非线性关系
假设几个PodPhone备选方案
用手头的资料进行假设检验
假设检验的核心是证伪
借助诊断性找出否定性最小的假设
无法一一剔除所有假设,但可以判定哪个假设最强
你刚刚收到一条图片短信……
即将上市!
6 贝叶斯统计 穿越第一关
医生带来恼人的消息
让我们逐条细读正确性分析
蜥蜴流感到底有多普遍?
你计算的是假阳性
与假阳性相对的是真阴性。
这些术语说的都是条件概率
你需要算算
1%的人患蜥蜴流感
疾病追踪中心正在关注蜥蜴流感
小心基础概率谬误
你患蜥蜴流感的几率仍然非常低
用简单的整数思考复杂的概率
搜集到新数据后,用贝叶斯规则处理基础概率
贝叶斯规则可以反复使用
第二次试验结果:阴性
新试验的正确性统计值有变化
新信息会改变你的基础概率
放心多了!
7 主观概率 信念数字化
背水投资公司需要你效力
分析师们相互叫阵
主观概率体现专家信念
主观概率可能表明:根本不存在真正的分歧
分析师们答复的主观概率
首席执行官不明白你在忙些什么
标准偏差量度分析点与平均值的偏差
俄罗斯宣布售出所有油田,称对商业失去了信心
这条新闻让你措手不及
贝叶斯规则是修正主观概率的好办法
首席执行官完全知道该怎么处理这条新信息了
俄罗斯股民欢欣鼓舞!
0 条评论
回复 删除
下一页