《数据驱动力:企业数据分析实战》读书笔记
2022-04-22 18:18:18 1 举报
AI智能生成
为你推荐
查看更多
数据分析
作者其他创作
大纲/内容
数据驱动型组织可能不断地测试。
数据驱动型组织可能持有持续改善的理念。
数据驱动型组织可能参与预测模型的建立,预测销量、股价或者公司收益,更重要的是,将预测错误和其他经验教训反馈给预测模型,以提升其准确性;(详见“数据驱动型文化”)
数据驱动型组织几乎肯定要使用一套具有不同权重的变量,在未来的诸多选择或行动中做出选择。
数据驱动的特征
在数据驱动型组织中,数据生成报表,报表引发更加深入的分析,分析结果被呈递给决策者,以融入其决策过程,影响公司的前进方向,并提供价值和影响;
分析价值链
数据驱动型组织会使用数据作为启发和影响战略的重要证据。组织内部将建立基于证据的文化:数据是可信任的,分析是高度相关的、启发性的并用于决定接下来的步骤。
数据驱动意味着什么
确定方向
我的时间大约有 80% 花在了清洗数据上。优质的数据总是胜过优质的模型。
数据质量的本质:正确地收集数据(收集的正确方法-How)
数据值代表实体的真实值或状态。
准确性
数据有没有缺失。
完整性
每一个独立的数据字段都是定义明确、无歧义的。
明确性
数据与正在进行的数据分析有关。
相关性
完整性(你拥有期望的所有数据)
准确性(数据提供了正确的信息)
可靠性
在收集数据和向分析师提供或发布数据之间的时间间隔很短或合理。
时效性
可信
分析师能够访问数据。
可访问性
数据一致。
一致性
相关数据可以用一种准确的方式组合到一起。
连贯性
可用
数据的特性
干净数据具备的属性
数据生成是质量问题的最初来源,硬件(传感器)、软件(bug)和人脑(人)都有可能成为错误产生的原因。
数据生成
录入的字词或者数据值与原始数据不同。
抄写错误
插入了额外的字符,如 56.789 → 564.789。
插入错误
一个或多个字符被删除,如 56.789 → 56.89。
删除错误
两个或多个字符被调换了顺序,如 56.789 → 56.798。
调换错误
录入错误类型
数据录入
完全随机缺失(missing completely at random),例如随机分布的 Web 服务器流量。
MCAR
随机缺失(missing at random),指数据作为已观测数据或现存数据的函数缺失了;例如地理服务 Web 服务器,它导致邮编数据集的样本容量变小。
MAR
非随机缺失(missing not at random),指数据作为缺失数据的函数缺失了,例如不开心的客户和他们的调查反馈。这是最糟糕的一种情况,带有严重的偏
MNAR
数据缺失的类型
越往下,麻烦越大,解决问题的可选方案也越少。
缺失数据
完全相同的记录出现了多次。
定义由一个或多个字段构成的组合键,使每条记录具有唯一性。
解决方法
多重记录
当数据被加载进数据库时,会被截断尾部(anderson → anders 或 545675786→ 54567578)
将数据库设置成严格限制模式,以便将所有警告信息变为彻底的错误,这样你就可以快速捕获和处理了。
截尾数据
计量单位不一致是造成数据质量问题的另一个原因,在国际化的团队和数据集中尤其如此。
需求文档需要明确指明对象的测量和记录方式以及计量单位。针对结果数据集还需提供详细的数据字典。
为了减少类似的模糊性,数据集必须提供尽可能多的元数据和应用场景。
也可以只采用和坚持使用公制计量系统。
解决办法
计量单位
另外一个与数据相关的问题是默认值问题,有时很难跟踪和区分。缺失数据在数据库中可以表示成 NULL,也可以表示成一些指定的默认值,例如,1900/1/1 是常用的日期默认值。
假设用 1900/1/1 设定了出生日期字段的默认值,分析师就会奇怪为什么数据库里有这么多年龄超过 100 的人。
如果忘记有这样一个默认值,结果就会令人困惑。
某个字段的默认值为 0,但是该字段的非缺失数据值也可能是 0,这样就分辨不出哪个是真的测量值 0,哪个是缺失数据。要巧妙地选择默认值。
如果选择不当,就可能无法从真实数据中区分出缺失数据。
两个问题
默认值
脏数据产生的原因
数据质量变差的原因
数据质量问题和应对策略
用于存储数据源头和变更历史的元数据被称为“数据起源”或“数据世系”(dataprovenance)。
用于追本溯源的元数据,应成为检查、维护和提高数据质量的积极战略的一个要素。
跟踪数据出处的来源世系
追溯数据变化的转变世系
两种基本类型
数据世系
数据质量
可连接
可共享
可查询
基本要素
数据驱动说起来很容易。但是如果你养成了习惯,尽可能收集并测量全量数据,同时持续思考所收集数据的含义,那么你就已经领先于大部分自称数据驱动型的组织了。
数据量指数据的多少
数据量(volume)
数据源和数据类型越多样,其整合成本就越高,毕竟将这些数据集中在一起绘出全貌是非常困难的
多样性(variety)
速度指单位时间内需要处理的数据量
速度(velocity)
该指标反映了数据质量
真实性(veracity)
大数据的 4个“V”
构建数据源、关联数据源和获得数据处理能力都需要时间,你需要有一套合理且周详的数据收集和供给策略。因此对于新数据源,你必须关注其价值、投资回报率以及它对组织产生的影响。
全量收集
数据优先级的判断依据
数据源的优先级
对数据分析师或数据科学家来说,深入挖掘档案和背景能获得大量原始数据。
相对于仅利用割裂的数据,关联数据能够产生巨大价值,这可以辅助你决定后续将哪个数据集引入组织(同时不侵犯他人隐私,也不违背伦理)以及如何关联这些数据。
关联数据
通过系统直接收集或抽样收集
分析师和领导层都喜欢免费的东西,可是通过付费获取更高质量的数据是更好的做法。需要考虑数据的价格是否公道,以及它给组织带来的价值。3.6 节将详谈该维度。
价格
数据的干净程度和可靠性如何?
质量
这个数据集是不是专属、排他的数据集?如果使用得当,能否给你带来超越竞争对手的优势?
排他性
你能否获得一个样本,以便在最终决定前可以审核数据,充分地判断数据的内容、质量和格式?
样本
数据发生变化、过时或变得无关的速度如何?数据的更新频率如何?
更新
调用 Web 服务 API 时,其可用时间有多久?API 调用或其他服务水平的协议是否存在限制?
如果数据很敏感,那么它是否被加密且安全地传输?
安全性
是否有任何许可条款或限制会制约从数据中可获得的价值?
使用条款
虽然每个人有不同的数据格式偏好,但它们通常都是人类可读的格式,如CSV、JSON 或 XML(排除二进制格式,标准压缩除外)受到普遍欢迎,因为它们容易解析且解析方式多样。设想在一天快要结束时,你是选择可以轻松处理的数据格式,还是选择需要额外的开发成本和时间才能使用的数据格式。
格式
应优先考虑文档完备的数据资源。
好的数据字典能清楚显示字段的定义方式、格式及取值范围。
文档
能否满足数据量和存储需求?有价值的数据集未必很大。
数据量
数据的详略是否达到了所需的水平?
粒度
购买数据需考虑因素
购买数据
数据收集方式
数据的价值 = 包含第三方数据的模型的期望价值–无第三方数据的模型的期望价值
增值 = 点击的价值×数据的价值
计算方式
加入额外数据可能会增加价值,但也可能使收益增值递减
“大数据”变成了许多企业优化决策的灵丹妙药,管理者评估其数据驱动决策的能力以及证明其为了获取和使用数据所做的投资合理性的能力,也随之变得愈发重要。如果缺少做这些评估的工具,大数据就更像是一种基于信念的举措,而不是一种科学的实践。
数据集的价值
应该考虑删除旧的、无关的数据;
或进行分级存储,降低数据的存储成本;
数据留存
当各种海量数据能为你所用时,你将拥有超乎想象的力量。
数据收集的本质:收集正确的数据(收集的正确方向-Where)
选择和提供最佳的数据源
数据收集中“质量”的评判标准
数据收集
如果没有明确的目的地,最终你可能会到达其他地方。
计算可计算的,测量可测量的,至于那些不可测量的,把它们变成可测量的。
指标也是实验和 A/B 测试的输出结果。
在设计指标时,我们要做的其实是加深对这台机器及其运作机制的理解。精心设计的指标能自动地驱动行为,进而优化机器的输出。
重点
平衡计分卡
TQM(total qualitymanagement,全面质量管理)
绩效棱柱模型
Tableau 仪表板
指标设计框架
尽可能简单,但不能更简单
更易于向他人传达,更不容易引起困惑
实施起来更简单,计算正确的概率更高
相较其他团队或组织,可能更有可比性
简单化指标定义的特征
要旨:如非必要,不复杂化指标。
指标设计方法
以集中、自动化、有存档和版本记录的单一真实信息来源为准,让不同团队从中获取信息。
确保组织内的指标都是标准化的。
构建分析库的过程更加简单
使得构建组织可以信任
使用和以此为基础的、关于业务(或市场)因果因素的知识库的过程更加简单
作用
要旨:应使用标准化的指标,除非有充分的理由不这样做。如果一定要使用非常规指标,则需要用文档记录它们非常规的方式和原因。
标准化
指标必须准确。也就是说,它们的算术平均值必须接近潜在的真正平均值;
校准模型
识别采集技术,收集时排除非所需数据
在设计指标时,要尽量考虑到数据本身和指标本身可能的偏差来源。
准确
指标必须精确,也就是说,如果在相同条件下重复实验,指标应该得到相似的值。如果用射箭作比,那么精确度就好比是靶点相近。
要想使标准误差减半,样本容量就要扩大到之前的 4 倍。
要旨:尽量使用准确且精确的指标,并考虑增大样本容量所带来的成本和收益。
精确
要旨:仔细考虑想捕捉数据中的何种变化,然后决定选择绝对指标还是相对指标,以便能够追踪这种变化。
相对和绝对
设定统计意义上“稳健”的指标,即对个别极端值相对不敏感的指标。
当平均值会因单个离群值而被显著拉高(超过 35%),则平均值指标在这里并不适用,中位数更加适用;
要旨:用探索性数据分析(比如直方图或二维散点图)来感知数据,并基于此选择恰当的稳健性指标和度量方式。
稳健
尽量选择能直接对你所试图驱动的过程进行度量的指标。很多时候不能度量或量化一切,需要选择一个代用指标或一个间接度量。
要旨:可能的话,请在尽量不使用代用指标的情况下实现系统和流程。不要总是为了省事而使用偶然获取的数据,而要关注应该收集的数据,如果它们能更好地满足你的需求,就使用它们。
直接
指标设计要素
KPI 也称 KSI(key success indicator,关键成功指标),它是一套与公司的战略目标相关联的顶级度量。
本质:目标和度量;
整个组织想驱动的核心指标不应存在混淆或模糊之处。因此,需要有一个明确的指标定义、明确的目标值和明确或标准的时间框架(一般是“年末”)。
定义清晰
KPI 必须能够量化,必须让你能够用数字衡量其一段时间内的进展。KPI 应该是一个能够移动的指针,而不是一个二元变量指标。
可度量
KPI 必须可实现,但要通过努力工作方可实现。
有目标
KPI 至少要让负责推动这些指标的人看到,但理想状态下不仅限于此。员工需要得到反馈,并且明确自己的努力能否获得回报,否则他们就得改变方针,尝试其他方法。
可见
具体(specific)
可测量(measurable)
可实现(achievable)
以结果为导向(result-oriented)
有时限(time-bound)
受评估(evaluated)
被审查(reviewed,或有回报,rewarded)
“SMARTER”
反映组织试图实现的目标
特点
常见KPI
应该关注更小、更一致的一些目标和 KPI,让每个人都能理解和跟进。
数量控制
KPI 的 SMART 标准意味着它们要既具体又可测量,这表示我们需要避免使用宽泛、模棱两可、定义不清的动词(比如“改善”“加强”)、名词或形容词(比如“最佳”“领先”“优质”)。统称为“含糊词语(weasel word)”
KPI的定义和目标
KPI
指标设计
有道德的人所做的比他被要求的多,而比被允许的少。
数据驱动型文化既要尊重数据的力量,也要尊重数据源——人类。
“在收集消费者的任何个人信息之前,应该告知他们具体的信息工作实践。”
告知/知情
“要让消费者能够选择他们被收集的个人信息有多少可以供我们使用。”
选择/同意
“个人能够访问关于自己的数据,查看存在于实体的文件中的数据,并能够质疑数据的准确性和完整性。”
访问/参与
“采取管理和技术措施,防止数据丢失和未经授权的访问、销毁、使用或披露。”
完整/安全
一种强制执行其他原则的机制。
执行/纠正
隐私原则
必须明确说明谁在收集数据、收集什么数据、如何使用或不使用数据、数据如何分享或出售给第三方、拒绝授权的后果和“数据收集者确保数据的机密性、完整性和质量所采取的措施”。
用户应该了解他们所同意的条款。
人类
能提供严密保护的、使用法律术语的完全许可。
法律
要制定用户能理解并可据此做出知情决策的政策,并且遵守文档中的原则和条款,以此体现对用户隐私的尊重。
机器
尊重隐私
凭借恰当的数据和工具,获得了窥探他人生活的惊人能力。必须谨慎考虑后果,这样做的目的不仅是为了避免吓到这些人。
无意泄露
数据驱动型组织必须尊重用户的权利和情感。虽然他们希望能挑战收集更多数据的极限,从而获得更丰富的广告素材、服务和数据产品,但从长远来看,如果得到用户的信任,业务最终会有更好的表现。
数据驱动型组织力量非常强大,切勿作恶。
要有同理心
可能的话,为用户提供关于如何使用或与他人共享数据的直观且恰当的控制方式。
让用户控制他们可能会收到的营销邮件的种类和频率、是否接收应用程序的弹出通知、是否希望收到合作机构的 offer,等等。
带着同理心去设计,让控制权简单直观一些、描述清晰一些;
把隐私和尊重放在首位,设计时要让用户产生有选择接受而非选择取消的心态。为用户提供选择和控制。
提供选择
数据的备份越多,风险越大;文件的可读性越强,风险越大;不同数据源的随机组合和整合越多,风险越大。
每个需要通过访问数据履行职责的人都有访问权限。
每个人只有对他们履行职责所需的数据的访问权限。
敏感数据(比如客户数据和处方数据)应该被高度谨慎地处理:高度限制访问权限、匿名化并加密。
安全
数据驱动型组织必须考虑更广泛的道德问题和恶心系数的问题,并建立自己的内部准则和规则,构造一个以数据为中心的道德指南。要考虑用户是否希望他们以特定方式使用数据,以及用户是否会因此而感到不快。
执行
隐私、道德和风险
获取数据
将发现、见解和建议打包呈现给决策者和其他利益相关者,以提升各个层面的探讨和决策的质量。
核心点在于数据驱动型组织中沟通分析输出的过程和目标,即为何使用沟通数据、使用怎样的沟通数据,而非如何使用沟通数据。
数据可视化目标:用交流来驱动行动。决策者需要高质量的信息来看到和记住关键点,还要进行评估并确保决策恰当。
说服他人
建构思维框架
驱动行动
目标
剔除图表垃圾,让受众看到应关注的重点;
尽可能地让受众减少思考负担;
对你要回答的问题有非常清晰的认识,对受众有明确的预期,包括他们的期望和需求。
谨慎选择可视化图表,使其既适合数据,又能最大限度地透出信号。
每张可视化图表、每份表格或每张幻灯片都要包含一项关键信息,向受众呈现可消化的信息量。提取其中最关键的信息和解释。
尽量不要让受众歪着脑袋读垂直文本,或眯着眼睛读小字号的文本。
加一些有用的指示,比如标题、轴标签和突出显示颜色,从而给出必要的情境。还要利用排版使信息更易读;
受众要怎么做才能接收到这些信息?请去掉任何需要受众费心思考的任务。
能做到带领受众阅读一条或一系列信息和见解,你的图表就会更直观、更令人信服,并能够有效且明确地传达核心信息。
去掉任何受众为了建立联系或掌握数据基本信息而需要执行的思维步骤或计算。
措施
达成目标要怎么做
在保持内容难度的前提下且利于受众理解;
展示数据
每个数据集、每个数据库和每张数据表都有它的故事。
这段故事需要准确、有经验性的支撑,否则人们就会用自己头脑中那些不怎么样的数据去自创一版故事。
找到那段故事,或至少找到对组织有意义的那段故事,然后解读并传播它。
分析师的工作
“故事”需能捕捉数据中关键的发现、特征或模式,可能的话揭示背后的原因、展望未来、阐明对组织的影响和建议。
讲故事
你的目标是什么?为何整合这次展示或这份报告?你想达到什么目的?
明确展示这些数据或发现的原因、你的总结以及期望。
想达到什么目的?
分析师或展示者必须考虑以上所有情况并组织材料,将影响最大化。
他们对数据了解多少,对技术了解多少?他们有何期望?他们有多大兴趣?动机有多强?他们有多忙?
必须选择合适的展示方式,并据此准备所需的材料。
受众是谁?
如果你要在一场全体大会上做展示,你的选择就会限于可视化展示或口头陈述。
对首席财务官来说,你可能需要提供一份书面报告,包括一份涵盖了他需要或关心的各方面的表格。
对一些管理者来说,你可能需要展示一份 PPT。
要借助书面报告、可视化展示(比如 PPT 幻灯片)、仪表板还是信息图。
不能原封不动地将展示内容从一种媒介复制到另一种媒介,并期望效果是最佳的。
使用什么媒介?
数据展示开始前需考虑的三个问题
找到并阐述最清晰、最干净和最具相关性的模式,并对其进行解释,再将其转化为对业务的影响。
分析师职责的核心
分析师必须选择和推崇最客观、逻辑性最强和最简化的一种,并说明选择的理由。
分析师不能被动地展示数据、信息和发现,而应该主动推销这些想法。
需要传达一些信息时,应该获取更多数据(如果需要的话),并呈现一段更丰富、更令人信服、基于事实的故事。
做数据推销
最适合的图表或可视化类型取决于变量类型(连续型、离散型、类别型或有序型)和其中要包含多少变量或因素,甚至还取决于数据值本身。
选择图表
图表建议
仪表板可能没有价值,但无人查看的仪表板一定毫无价值,即使看了,如果没人因此而做出改变或采取行动,那么它也没有什么价值。
如果你需要将报告通过服务器发给利益相关者,就可以打开电子邮件阅读回执并追踪邮件打开率。
价值
6~12 个字的描述性标题,居左,位于左上角副标题或注释提供额外信息字号有层次且易读文字水平排布直接标注数据不滥用标签
文字
比例恰当有意识地给数据排序轴间隔等距图像是二维的图像无修饰
排版
有意识地选择配色方案用颜色来突出显示关键模式黑白打印时仍可辨认色盲人士也可辨认文字和背景有明显对比
颜色
网格线(若要显示)要柔和图片不要有图廓线坐标轴不要有多余的刻度线图像有一个横轴和一个纵轴
线条
要强调重要的发现或结论图像类型要适合数据图像的精确度要适当各个图表元素共同作用,来强化首要信息
总体
数据可视化清单
数据可视化是为了清楚地传达信息
避免对图表进行过度装饰
人脑会本能地寻找模式,而我们更喜欢相对简单、相对平滑的曲线。
关注信息
设计图表元素
对数据驱动型业务而言,我不太推崇信息图,因为它意味着现代意义上的华而不实,具有色彩斑斓的视觉效果,却缺乏事实,通常出自设计师而非分析师之手。
绝大多数信息图含有大量图表垃圾,而且数据非常零散。
信息图主要用于公众交流,但不适合决策;
信息图
以产出的报表数和仪表板数来衡量其数据驱动性。
错误观点
数据发现
数据钻取
数据报警
数据预测
具有针对性,明确受众;
明确不同受众需要看到的内容;
仪表板要有明确的使用案例,其中展示的每一个图表和数值也都要有令人信服的原因。
随着仪表板变得越来越杂乱,其内容会越来越难阅读和理解,从而降低效率。少即是多。
KISS(保持简单)原则
设计仪表盘要素
用 QlikView 实现的一个经管仪表板,展示了不同地区的销售 KPI
高管
受众
提供了对组织的高层次概览,通常侧重于记分卡(KPI 及其目标)。
仪表板需要简明扼要地显示组织是否达到了目标,以及是否有值得关注的事情发生。
仪表板应该有助于从总体上把握组织的脉搏。
经管仪表板或策略仪表板
采取较低层次的视角,捕捉某个部门或业务某个方面的关键趋势和指标,比如销售渠道、营销或供应链。
通常是可交互的,用户可以深入研究任何异常趋势和离群值,并进行数据发现。
分析组织
业务部门主管
针对网站访问者的分析仪表板示例,来自谷歌分析
分析仪表板
延迟更低,更能反映特定业务部分的细节,比如实时销售额、Web 流量或客服案例和电话呼叫队列,对问题有更多的提醒作用。
这类仪表板往往对问题有更多的提醒作用,员工可以即时做出反应以便迅速采取行动,比如启用更多服务器、调度员工以减少积压或库存。
一线员工
实时的网站活动视图:访问者的来源、访问者要访问的页面和访问速度
操作仪表板
分类
仪表板
传达
数据可视化
用数据讲故事
报表
报表:为了监控企业不同方面的表现,将数据组织成信息摘要的过程;
分析:将数据资产转换成有竞争力的见解,从而使用人才、流程和技术驱动业务决策和行动;
根本目的
报表和分析的关键属性
只有报表(A)和报警(B)不能算是数据驱动:它们说明过去发生了什么,或者当前正在发生什么不寻常或意料之外的事,但没有解释发生的原因,也没有给出怎么解决或者再现同样情况的建议。
从模型或者实验(D)中挖掘和理解起因是数据驱动的先决条件。
只有彻底了解事情的来龙去脉,才能形成一个计划或一整套建议(E)。E 和 F 也只有在按照信息采取行动时才算真正的数据驱动
C 是一个危险区域:很容易把观察到的趋势推演到将来;为了让预测更可靠,必须建立因果模型;而不是根据历史数据进行单一的预测;
由分析解决的 Davenport 假设关键问题
从报表和报警到分析
发生了什么?何时发生的?示例:月度财务报表。
标准报表
量是多少?频次如何?在哪里?示例:客户(定制)报表。
特定报表
问题具体在哪儿?怎样获取解决方案?示例:手机用户的类型及其呼叫行为模式。
钻取查询(或在线分析处理,OLAP)
何时做出反应?当前需要采取什么行动?示例:之前提到的 CPU 使用率。
报警
事件的起因?正在错失什么机会?示例:为何越来越多的银行客户抵押房产?
统计分析
如果这些趋势持续下去会怎样?需要的花费有多少?何时需要?示例:零售商可以预测不同门店对商品的需求量。
预报
接下来会发生什么?将对我们的业务产生怎样的影响?示例:娱乐场所预测哪些 VIP 客户会对特定的假期套餐更感兴趣。
预测
如何将事情做得更好?对于一个复杂问题,最佳决策是什么?示例:在业务和资源都受限的情况下,什么才是优化 IT 基础架构的最佳方式?
优化
分析成熟度
智能化程度
分析能力层级
只要拷问的时间足够长,数据就会供出一切。
将数据集转换成有竞争力的见解,这些见解将驱动商业决策和行动,充分调用人才、流程和技术。
什么是数据分析
对数据集进行定量的描述和汇总,重要的是,它描述数据样本的数字特征,而避免描述数据所属总体的任何信息。仪表板中展示的数据,如本周新增成员数量或年初至今的订购量,往往来自描述性分析。
单变量分析指的是描述数据中的单个变量(列或域)。
样本中数据点或记录的数量。
是最简单也是醉重要的一种度量;
样本容量
数据的算术平均值:值的总和除以值的数量。
均数(平均值)
简称“几何均值”(geomean),当乘数效应起作用,比如利率逐年波动时,就可以用它来计算平均值。它是n个值的乘积的n次方根。例如第一年的利率是8%,而之后 3 年是 6%,那么利率的平均值就是 6.5%。
几何平均值
值的倒数的算术平均值再取倒数,一般用于平均速率。例如,如果你以 50 英里/时的速度开车去往店铺,返程途中因为遭遇堵车,车速只有 20 英里/时,那么你的平均速度并不是 35 英里/时,而是 29 英里/时。
调和平均数
50% 分位数。
中位数
最常出现的值。
众数
位置指标
样本中最小的值(0% 分位数)。
最小值
25% 分位数。有 1/4 的样本值小于它的值。也称四分位低值(lower hinge)。
下四分位数
75% 分位数,也称四分位高值(upper hinge)。
上四分位数
样本中最大的值(100% 分位数)。
最大值
中心 50% 的数据,即上四分位数–下四分位数。
四分位距
最大值与最小值之差。
全距
与样本算术平均值的离散度,它是方差的平方根,单位与样本数据相同。
标准差
各数据偏离平均值 差值的平方和的平均数
对于一组随机变量或者统计数据,其期望值(平均数)用E(X)表示,即随机变量或统计数据的均值, 然后对各个数据与均值的差的平方和;
另一种离散度度量,是对算术平均值的差的平均平方,也是标准差的平方。其单位是数据单位的平方。
方差
标准差除以样本容量的平方根。如果要从同一个总体源中反复抽取同样大小的样本,该指标便能度量样本均值的期望标准差。
标准误差
一种离散度,最初用于量化一个群体中收入的不平均程度,但用途其实可以更广。在概念上可以简单地将这个度量视为从一个群体中随机抽取的两个个体的绝对差平均值的一半,再除以群体的平均收入。
基尼系数
离散或集中趋势的度量
一个描述分布不对称性特征的度量。如果分布的右侧尾部比左侧尾部长,那么它就是正偏分布,反之则是负偏。
偏度
分布峰部尖度的度量。峰度高的分布峰部尖、尾部厚。在投资场景中这是一个重要的考虑因素,因为高峰度意味着相对于正态分布,极端值更为常见。
峰度
形状度量
描述性分析
运用图表检验和可视化数据的分析叫作探索性数据分析
双变量数据常用图表类型
茎叶图
直方图
箱线图
饼图
条形图
帕累托图
构建一个包含一维或二维图像的格子
small multiples
常见统计图
探索性分析
因为数据收集成本太高,收集所有数据是不现实甚至是不可能的,所以我们一般会根据样本来推断总体的指标。
提供一个评估差异和结果的客观框架。
为何需要推断?
这个特定样本均值或样本比例的置信度是多少?如果重复实验,它有多大可能会因随机性而改变?
标准差、置信区间和误差幅度
这个样本均值是否与我的期望值有显著差异?
单个样本的期望均值
两个样本的均值是否存在显著差异?(从技术上讲,如果原假设为真,即两个样本的总体均值无差异,那么观察到均值差异或更大的均值差异出现的概率是多少?)
两个样本均值的差异
要想让数据达到某个置信度,所需的样本容量最小是多少?这些类型的统计工具对于规划 A/B 测试非常重要;
样本容量计算和功效分析
样本值的分布是否与正态(钟形)分布一致?两个样本的总体分布是否可能相同?
分布
假设我精心设计并进行了一个实验,在其中系统性地改变了一个(独立)变量,同时尽可能控制了其他因素,然后拟合了一条回归(趋势)线。那么该趋势线的置信度有多大?如果重复多次实验,这条线变化(包括梯度和截距)的可能性有多大?
回归
给定一个类别型变量(比如产品类别),其频率或计数(比如购买量)是否符合一系列期望的相对频率?两个变量(其中一个是类别型)是否存在关系?
拟合优度和关联度
统计推断能回答的问题包括(但不限于)以下类型
推断分析
预测分析基于推断分析,其目的是从现有的训练数据集中学习变量间的关系并建立统计模型,用来预测新的、不完整的或未来的数据值
预测分析虽强大,却不难,其中最难的一步是获取一个高质量且干净的数据集。
推荐算法
常见预测
预测分析
想理解一个系统,并且判断哪些因素会影响局部变量和指标的话,就需要构建一个因果模型。
因果分析
基础科学、研发和“建模”。
机制分析
分析层级(左)和分析类型(下)的粗略映射,每个格子的颜色层级显示了在相应的分析类型中所耗费的精力或时间的粗略估计。
分析的类型(从最简单到复杂度和要求最高的顺序排列)
倾向于随空间、时间或样本而变化,如“令变量v = 车速”或“性别是一个类别型变量”。
变量
可能需要画出销售总额(度量)与州(维度)或年份(维度)的关系,或计算网站跳出率(度量)与性别(维度)之间的关系。
在条形图和折线图中,维度会置于 x轴上,而度量会置于y轴上。
维度是一个变量,用于将事实和度量分类,一般是类别型或时间型的,但也可以是排序、等级或整数型。
维度
度量是对一个物体的原始数值的测量(如长度),也可以是一种标准单位或尺度。
然而在商业智能中,该术语通常指一个函数(如 BMI)或聚合指标,如通过测量所得数据的最小值、总和、计数或平均值。可以把它想成对某个事物的单纯度量或衍生度量。
度量
两个或多个度量的函数(这里的度量指的是测量),或就是一个度量(这里的度量指的是函数)。它是一个衍生度量。
指标
一组样本值某属性的单一度量,比如算术平均值为 6.3。这是一个作用于一组数据后返回单一值的函数。函数和最终值都被视为统计量。
统计量
在业务场景中,它是一个度量,并与绩效目标、指标或一些基准值相关联。也就是说,它能表明与某些业务目标或起始点相关的表现。
常用术语
数据分析
分析
让数据来做决定,而不是 HiPPO。“highest paid person'sopinion”(薪资最高者的意见)的首字母缩写
“数据启发”(data-informed)
“数据影响”(data-influenced)
数据驱动
数据质量和信任缺失
从噪声中筛选信号
数据的潜在问题
数据
高管,即决策者,一般是因为能在战略高度进行思考而身居此位,这往往意味着他们能够忽略数据而编织愿景、一往直前地实施它并消除一切障碍。
看重直觉
缺乏数据通识
缺少问责制度
文化
不一致性
我们能记住没发生过的事
我们不像自己想的那样优秀
我们不会舍弃不好的数据
我们会执着于无关数据
我们会疲劳和饥饿
幸存者偏差
确认偏差
近期偏差
敌友偏差
认知障碍
是什么让决策变得困难
一种原始而直接的激励因素。
愉悦/痛苦
一种包含更多预期的激励因素。
希望/恐惧
对那些需要复杂的或创造性思维的工作来说,钱不仅没有激励作用,反而会导致绩效下降。
社会认可/排斥
激励和追责
证明给我看
透明度
动机
人们执行短期任务的能力比执行长期任务的能力更强。
时间
人们执行廉价任务的能力比执行昂贵任务的能力更强。
金钱
人们执行体力活动较少的任务的能力比执行体力活动较多的任务的能力更强。
体力活动
人们执行不费脑子的任务的能力比执行极具心智挑战性的任务的能力更强。
心智周期
人们执行被社会接纳的任务的能力比执行不被社会欢迎的任务的能力更强。
社会偏离
人们执行常规任务的能力比执行非常规任务的能力更强。
非常规
将行动与结果挂钩
定义(define)问题;
建立(establish)标准;
考虑(consider)所有备选项;
确定(identify)最佳备选项;
提出(develop)并实施行动计划;
评估(evaluate)和监控解决方案,并在必要时提供反馈。
DECIDE
合作与共识
决策者数据通识的增加显然能够提高其能力(心智周期因素)。
培训
数据展示方式的一致可以加快(时间)和简化(心智周期)任务。
能力
触发器
解决方案
决策
我们的直觉判断可能非常不准,甚至领域专家也经常会犯很多错误。
你可以测试所有的猜测。无论是什么行业,总有可优化之处,总有经验教训可学习。
关于 A/B 测试的好消息之一是,你不必就事情发生的原因给出未卜先知式的因果解释,而只需要测试、探索和发现那些贡献良性影响的改善。
不要指望每一个实验都能满足长期的目标,单单一个改善就能对底线产生重大影响。
为何要做A/B测试
避免产生“钓鱼”的情况发生;(只说明看起来不错的数据,而不是最真实的实验数据;)
最佳实践:在测试开始前清晰地定义成功指标。
成功指标
可以用它检测和监控测试基础架构以及分配流程。
如果观察到可比较的样本容量,但性能指标差异很大,这可能表示在事件跟踪、数据分析或报告中存在问题。
使用测试结果来评估可控指标的可变性。
优势
A/A 测试
最佳实践:在运行测试之前,仔细思考整个测试。
测试目标是什么?
谁是企业的主要负责人?
谁负责实施过程?
谁是业务分析员?
责任人
(统计)实验物和对照物(体验)是什么?
对照组和实验组(人员)是什么?
原假设和备择假设?
将跟踪什么指标?
何时讨论和反馈?
测试何时开始?
存在失效期吗?如果有,出于分析的目的,应该何时开始实验?
测试要运行多久?
如何确定样本容量?
实验设计
谁将执行分析?(理想情况下,创建实验的人和评估实验的人应不同。)
要执行什么样的分析?
何时开始分析?
分析过程何时结束?
用什么软件分析?
如何传达分析结果?
如何制定最终决策?
输出
A/B 测试计划
最佳实践:使用样本容量计数器。
普通 A/B 测试的结果
实验之前
最佳实践:对 50% 的合格用户进行实验并保持不变。
分配
运行实验
导入 1% 给实验组,保持 4 小时;
导入 5% 给实验组,保持 4 小时(从对照组转移 4% 到实验组);
导入 20% 给实验组,保持 4 小时;
在剩下的实验阶段导入 50% 给实验组。
如果你确实发现了问题,就非常有必要提前设置一个可点击的退出按钮,这样能立即中断实验,并且将所有流量转移回对照组。
最佳实践:逐步增加用户到 50%。
启动测试
最佳实践:运行实验直到满足最小样本容量的要求,或者更久。
何时停止实验
多变量测试
贝叶斯定理中的“强盗”
文化内涵
其他方法
怎么做:A/B测试中的最佳实践
A/B测试
行动
数据在分析价值链中流动时,会与人类或技术产生交互,我们把这些称为“接触点”,它们深受主流文化的影响。
:数据并不为各个团队“独有”,而是属于整个组织。
数据共享也需要信任。首先,人们必须相信数据的可靠性和准确性。其次,他们要相信数据会被很好地利用,而不是用来针对他们。
数据驱动型组织更开放、更透明,数据也更大众化,允许组织内的许多个体访问。
开放、信任的文化
广泛的数据通识
专注的组织无论是否由数据驱动,都应该有一个清晰的方向,一个贯通组织的业务愿景。
目标优先的文化
求知好问的文化
反馈循环
错误是发现的入口。
迭代、学习型的文化
反HiPPO文化
数据驱动型文化
布道
要想变得更加数据驱动化,组织必须把数据作为战略资产来利用。
塑造文化、影响他人(包括首席高管以及下属)、改变他们看待和使用数据的方式。
要有能力将硬技术(数据、技术和统计学的专业知识,纵向知识、商业头脑)和软技术(交流、领导能力、尊重反对意见、愿意改变现状)相结合。
数据能够同时支持多个项目,而且数据作为一个基础部分,往往会比这些项目更持久,更“超然”。
首席数据官角色的精髓
品质
首席分析管
数据驱动型的首席高管
数据愿景
数据驱动型营销
数据驱动型销售
数据驱动型客服
数据驱动型供应链
数据驱动型人力资源管理
数据驱动的应用
数据应用
数据分析师是“T”型的:他们在广泛的技能领域经验较少,但在某一领域拥有扎实的技能和知识。
数据分析师在组织里的角色取决于组织的规模、成熟度、领域和市场。
生成报告
进行分析
职责
数据分析师
获取、清洗和处理数据,并将其转换成分析师能够获取和分析的形式。
处理运营方面的事项,如吞吐量、扩展、峰值负载和日志等,可能还负责构建供分析师使用的商业智能工具。
数据工程师和分析工程师
商业分析师通常充当企业利益相关者(如部门主管)和技术部门(如软件开发人员)之间的纽带。负责改进业务流程,或帮助进行后台或前端系统功能的设计、开发和优化,比如改进面向用户网站中的结账流程。
商业分析师(需求分析师/产品经理/项目经理)
比软件工程师更擅长统计,比统计学家更擅长软件工程的人。
数据科学家
统计学家是组织中关注统计模型的技能型人才,一般至少拥有统计学硕士学位。他们备受保险、医疗、研发和政府部门的欢迎。
统计学家
金融工程师是精通数学的数量分析专家,通常在金融服务业(买方或卖方)从事对证券定价、风险管理和股市行为的建模工作。
金融工程师
会计和财务分析师关注内部财务报表、审计、预测和企业绩效分析。
会计和财务分析师
数据可视化专家具备优秀的设计审美,他们负责构造信息图、仪表板和其他设计相关产品。
数据可视化专家
分析师类型
业务
数学/运筹学
机器学习/大数据
编程
统计学
技能
“T 型技能,业务方面能力卓越,而其他方面能力相对平庸。”
数据业务人员
在统计学方面功力深厚,而在机器学习/大数据、业务和编程方面相对薄弱。
数据研究人员
π型,拥有很强的编程技能和较强的机器学习/大数据技能,而其他 3 类技能相对平庸。
数据开发人员
最不 T 型的一类,“处于平均水平,任一种技能都处于中等水平”
数据创意人员
角色
此人是否合适?是否拥有我们寻找的技能、潜力和魄力?
个体层面
此人能否和团队其他成员相配合,填补团队的不足之处,或者强化团队的薄弱环节?
团队层面
团队状况与其工作职责是否相匹配?换言之,达成预期目标的最佳团队应该是什么样的?
工作层面
招人考虑层面
不必拥有数学或统计学的博士学位,但至少要擅长描述性统计(中位数、众数、分位数等),并且愿意学习新知识。
计算能力
如果高管依赖这些数字、报告和分析做重大业务决策,那它们最好准确无误。分析师必须三思而后行。
注重细节和方法
优秀的分析师会培养敏锐的“预感”能力,能在原始数据、聚合数据或分析本身的问题初现时就发现它们。首先,他们会主动地仔细考虑数据取值的有意义范围。其次,他们会主动检验数据有效性,并在指标和预期不同时复核源数据和计算。
适度怀疑
分析师在向(资深的)同事展示自己的分析结果时应充满自信。如果他们的结论出人意料或者暴露出严重的低效率,他们的数据和分析可能会遭受质疑。因此,分析师必须对自己的工作有信心,坚定自己的结论。
自信
分析师的部分职责是提出可行的建议,因此他们需要始终保持好奇心,才能持续对数据中潜在的兴趣点提出假设或质疑。
好奇
如果分析结果没能很好地传达给决策者和企业主,让分析工作落实为行动的话,分析师的工作就毫无价值。他们需要把数据和分析结果变成一个一气呵成、引人入胜的故事。因此,他们必须有很强的书面和口头表达能力与数据可视化技能;
良好的沟通和叙事能力
对于分析师而言,很多事情不可控,其中包括原始数据源的准确性或可用性、数据丢失、需求改变或数据在分析之后暴露出偏差,这也就意味着需要丢弃数据或重新分析。因此分析师必须要有耐心。
耐心
热爱数据
终生学习能力
必须关注正确的问题。有些人很容易钻牛角尖,花太多时间钻研对业务实际影响小于 1% 的边缘情景。好的分析师就像好的编辑一样,他们心中有更大的蓝图,知道何时该放弃,能合理利用时间处理更重要的事情。
务实且有商业头脑
技能和素质
建模
R语言
数据查询
SQL
UNIX/Python
Hadoop 框架
D3
可扩展机器学习工具
RDB(关系型数据库)
辅助工具
数据从业人员
受追捧的分析师会避免进入分散管理型分析组织,因为他们知道,这会让他们花更多时间去跟上进度,而且他们的成就很可能没有对应的绩效奖励计划。
有的组织在咨询结构中对集中型模型做了调整,使得分析师可以外聘到其他部门,并获得相应的报酬。
咨询型
一种串行集中形式,一个中心团队在一个功能型业务部门之中工作,并主要为该部门服务,但也可能会为其他部门提供一些服务。如果有需求,他们可能会集体迁移到其他业务部门。
功能型
这种结构与混合结构相似,但规模更大,而且在中枢中拥有一批分析专家,如统计学家。
精英中心型
同分析组织结构的总结和举例
分析组织结构
数据越多,越可能接近我们期望的匹配。
超过该阈值之后,结果会从非常坏变成非常好。
数据量与解决方案质量的示意图
最近邻类型问题
语料库越大,相对频率的估计质量就越高。这就是大数定律。
语料库越大,其包含非常用短语(长尾)的可能性就越高,这就是无界效应(unbounded effect)。网络被索引得越多,出现的新词组就越多,因为英语的单词分布遵循幂律,所以这种问题就更严重了 2。这意味着尾巴特别长,因此需要特别大的样本来捕捉这些罕见短语。
相对频率问题
估计单变量分布问题
多变量问题
不同样本量的示例
关于数据不合理的有效性:为什么数据越多越好
数据就是新的石油!
数据驱动型组织不同构成部分的概要描述
其他
数据驱动力:企业数据分析实战
收藏
收藏
0 条评论
回复 删除
下一页