《数据分析思维课》读书笔记
2021-10-27 09:01:11 4 举报
AI智能生成
数据分析思维课程的学习笔记,记录了所有数据分析基础、数据挖掘算法、数据分析工具、数据分析思维图、书单、职业发展路线以及相关核心内容和有趣的见解,实用的数据分析全景地图。
作者其他创作
大纲/内容
4. 如何用数据说话
4.1 确定问题
与利益无关的问题都不值得数据分析和挖掘
两个分析方向
增加收入
降低成本
四象限
针对一个具体问题,正确的步骤是确定问题、探索数据、总结讨论,实践、迭代你的理论。这个过程是把问题逐渐收敛聚焦到关键问题上,而且并不是单向的,后面在执行步骤过程中,可能还会反复到上一个步骤里进行数据优化或者数据补充。
分析问题的两步法
第一步,把理想与现状对比(As Is -- To Be)
当前是理想值的多少
如果理想值提高 10%,你可以从哪些方面下手
如果理想值提高 100 倍,你可以从哪些方面下手
第二步,6W2H 法
Who:指的是涉及这件事情的人、组织职务等等,一般会涉及到决策者、行动者、客户等
What:列出跟我们讨论相关的这个方向整体的事实或者架构,这些问题和哪些因素有关?他们的条件是什么?重点是什么?与什么有关系
Whom:紧接着列出这个目标是针对谁来做的,工作对象是谁?关键干系人有哪些?谁会受益
When: 明确实施的时间周期,预期何时能完成?需要几天才合理
Where:确认渠道、地点位置、周边的环境,资源在什么地方
Why:列出可能的原因,一些前提条件或者意图
How:思考一下现在的问题,未来有可能用哪些手段、方法提高和改进这个问题
How Much:确认最后要花的时间、人力资源、费用等
数据驱动不是只是利用“数据”做驱动,而是要用数据思维来驱动。我们要先确定分析的问题,再采集数据
数据分析重点在要分析的问题,而不是在数据,不要一上来就先用手头数据进行分析,要先针对问题利用 As-Is To Be 和 6W2H 方法进行细化。
其他有趣见解
工具是为数据分析服务的,数据分析的目的是为解决问题服务的,一切还是要回归问题本身,想明白“我想要什么”
4.2 采集数据
采集数据
一手数据
一手数据主要来自企业内部的大数据平台、数据仓库以及相关系统,还有部分数据来自用户访谈和调研问卷以及内部沉淀的历史文档。
特点是数据可控
要点
第一,数字化升级转型应该先从核心或者创新业务流程开始
第二,数据的采集和计算一定要从最明细的数据开始
第三,在做数据分析的时候,数据质量的要求要大于数据量的要求
二手数据
二手数据主要是来自行业内的数据,它们不是自己企业内部产生的。一般二手数据来自政府部门的报告、行业协会、企业财报、投资机构还有企业官网和一些新闻稿,同时也会来自圈内的沟通或者行业内专业咨询公司出的专业分析报告
一般二手数据用于让我们看到行业内的竞争对手或者整体行业的趋势
要特别注意鉴别二手数据当中的可信度,因为很多企业为了扩大市场影响力,经常会使用“数据技巧”来修饰数据,这样可能会出现因果倒置或者前面讲到的各种数据问题
数据探索
趋势分析法
找到某一个类型的数据之后,捕捉这个数据一个时间段以内的变化。通过这些数据变化,我们去知道曾经有哪些变化、对结果数据会有哪些影响,这样可以找到其中关键的问题和原因
用折线图、散点图和回归来分析趋势并确定离群点。我们要尤为关注离群点,因为这些离群点发生的原因往往就是解决问题的答案
看整个趋势的时候,我们要注意到那些呈指数分布增长的数据,他们往往是对我们非常有意义的。而对于比较平直的曲线来说,我们需要关注整体数据的波动情况,也就是看离散系数是不是很大,因为这代表着这个业务的稳定性
快照扩展法
快照扩展法是截取某个时点的情况,然后通过下钻的方式来扩展这个指标的分布情况。我们会看在这个时点里面我们各部分对于整体的占比和影响程度
用到曾经讲过的直方图、散点图、聚类分类和数据分布当中的方法,来看各个细分渠道、细分部门分布情况,从而找到我们重点要分析的部门、渠道或一些重点的原因。这样做其实是为了明确我们分析范围的目的,把所有的数据信息全都放到一起就像一笔糊涂账,一个有效的数据信息也无法拿到
衍生指标法
优秀的衍生指标就像几何当中的辅助线一样,会帮助我们看到更有意义的数据
三点注意事项
关注数据质量的把控
注意避免辛普森悖论
注意避免因果倒置
附录:二手数据来源
宏观数据
经合组织开放的数据网:
世界银行公开数据
中国统计年鉴
统计局网站
新华社 - 全球经济数据
中国互联网络信息中心
中财网
互联网数据
Alexa
百度指数
微指数
淘宝指数
阿里价格指数
Similarweb
netmarketshare
Statcounter
行业数据库
数据汇
数据圈
镝数聚
联合国图书馆
票房数据
中国票房数据
行业分析机构
Gartner
Forrester
Bloomberg
易观
艾瑞
新榜
企业数据
巨潮资讯
EDGAR
企业招股说明书、年报、半年报、季报、券商分析报告
投融投资数据
IT 桔子
投资中国
创业邦
36 氪
4.3 写好故事线
在前期广泛的思考是非常重要的,但是到了后期你需要把思维聚焦,必须对面临的问题形成清晰的判断,特别是对关键问题的关键变量要有明确的定义。
最成功的分析师就是那些会“用数据讲故事的分析师”,好的故事在呈现调查结果时往往会采用对方可以听懂的方式
经典三段论
情节(陈述) - 起伏(惊喜) - 结尾(结论)
陈述
开场,用 30 秒陈述痛点和整体问题的背景
针对问题本身的分析,也就是我们定义问题的部分
结合内外部数据针对问题举例说明
起伏
阐述要提升 10% 的话有哪些办法和选择,并给出不采取行动或不发生变化会怎样
阐述更高倍数的提升办法和潜在选择是什么
还有哪些你发现而别人没有发现的观点问题?能带来什么?
结论
用简要的话或者数据分析思维导图进行总结和升华
结尾不要用谢谢,要用召唤型的语言或强有力的金句对整个分析报告进行收尾
注意要点
篇幅
对于数据分析报告来说,高层汇报一般建议在 20~30 分钟,PPT 在 10~20 页;中层和执行层面汇报可以 40~60 分钟左右,整体内容可以在 30~40 页
标题
你把你写的所有内容去掉,只是看 PPT 的标题,这几句话串起来应该就能把你这个故事完全讲明白,而不是要看完标题之后还要到每页里面去理解,这才是一份好的数据分析建议书
换位思考
在你的 PPT 介绍里面不要有大量的技术架构图、产品功能图等等,因为这些内容往往专业性过强,只能有部分的听众能够理解。我们要换位思考,让参与这场数据分析会的人员可以快速融入到角色中。你需要考虑的是写出的内容是否更有利于对方理解,而不是只顾着炫技
干系人态度
在整个报告内容里你还要注意到干系人的理解程度和态度,因为你还有下一步的实践行动,你的目标是要推动用数据分析结果去解决问题。所以,你需要获得相关部门的共识和认可,最后,再推动大家把所有的问题放在桌面上一起讨论解决
一图解千愁
实例
现状分析:
运营投入成本过高无法使公司盈利
运营投入成本过高无法使公司盈利
当前市场线索量够大,但质不佳
运营活动消耗大,效果有限
公司整体获客转化效率较低
解决之道:
盈利需要断舍离,提升线索 ROI
盈利需要断舍离,提升线索 ROI
抖音直播与线上活动 ROI 很低,建议停止
现有关键字转化率整体较低,需进一步优化关键字投放
Demo 转化率低于业内预期,需加强客户引导注册页面
特别分析:
如何发现公司的宝藏客户
如何发现公司的宝藏客户
部分高价值客户潜力巨大,未能形成有效收入
落地建议与讨论:
打通内部运营数据,深入行业解决方案
打通内部运营数据,深入行业解决方案
组建线下行业销售团队,优化电销话术,提高客单价
建立市场后向指标,打通成单与投放 ROI 指标
优化产品注册流程,减少流失率
讨论建立私有化版本,提高整体产品单价
总结:
客户潜力巨大,练好内功,目标投入减半,收入翻番
客户潜力巨大,练好内功,目标投入减半,收入翻番
总结
联合国一直在公布偷渡溺亡的难民数字,但直到那名叙利亚儿童死后被冲上岸,各国政府和民众才真正改变对待难民的态度,它胜过一切冷冰冰的数据
我们需要的是故事,因为只有故事,才能达到共情、建立人与人之间的连接、让他们站在你这边
4.4 实践你的理论
精益
“精”就是少投入、少耗资源、少花时间,尤其减少不可再生的资源的投入和耗费;“益”就是多产出经济效益,实现企业的升级目标。
在进行数据实践时不要选一个巨大的目标,而是去选择一系列快速的实验,小步快跑来迭代验证你的数据理论
不要想着憋大招,进行一个巨大的流程或者产品方面的修改,这样很容易当时间都过去之后,才发现方向的错误
“无论多坏的改变都会有人受益,不论多好的改变都会使一些人受损。不害人的需求是不完整的需求”
创新扩散模型
5类人群
创新者(Innovators):他们是勇敢的先行者,自觉推动创新。创新者在创新交流过程中,发挥着非常重要的作用
早期采用者(EarlyAdopters):他们是受人尊敬的社会人士,是公众意见领袖,他们乐意引领时尚、尝试新鲜事物,但行为谨慎
早期大众(EarlyMajority):他们是有思想的一群人,也比较谨慎,但他们较之普通人群会更愿意、更早地接受变革
后期大众(LateMajority):他们是持怀疑态度的一群人,只有当社会大众普遍接受了新鲜事物的时候,他们才会采用
迟缓者(Laggards):他们是保守传统的一群人,习惯于因循守旧,对新鲜事物吹毛求疵,只有当新的发展成为主流、成为传统时,他们才会被动接受
理性行为理论
一个人从认知到最后的实践,中间有很长的一段距离
同样,前期你对创新者进行大量数据思维和实践的布道,这一步是加强他们对整个数据实验的认知,影响创新者对这个实验付出的努力程度以及承担风险和获得收益的态度
数据实验要快速迭代,所以在没有得到对方深度认可之前,你宁可花一些时间去进行说服和沟通。一旦实验开始,要的就是最后的结果,好的结果哪怕是一点点,也比做再多的 PPT 都有用
做数据分析一定要诚实、公平、可信,这样才能够把数据思维贯彻在全公司的员工的心里,不然大家很容易觉得数据只是用来汇报的表面功夫
4.5 数据分析
15 种数据思维图
15 种数据思维图
VRIO 分析
问题场景:分析自身业务
要分析一件事情或者一个产品是否有竞争优势,最基础的分析部分就是资源以及分配方法
V 表示价值性(value)
我们在评估经济价值的时候会评估拥有此项资源是不是就能把握机会,是不是就可以削弱竞争对手的优势来一枝独秀
R 表示稀缺性(rarity)
在评估稀有性的时候,我们会评估一下拥有的这项资源是不是很稀缺
I 代表可模仿性(imitability)
在评估可模仿性的时候,我们会评估如果其他人想获得这项资源,是不是要付出更高的成本
O 代表组织性(organization)
评估组织性的时候,看你自己组织具备的资源和实力能否得到有效开发和利用
进一步分析
在针对这些情况分析之后,我们可以考虑一下,对于自身公司目前的这些情况,你首先想到的资源会是什么?强化哪些资源还可以提升我们的竞争力,加强哪些优势可以补足我们弱势的竞争点?
波特五力模型
问题场景:整体业务赛道与竞争情况
这个模型是由迈克尔·波特(Michael Porter)于 20 世纪 80 年代初提出。它是一个最常见的竞争分析方式,这个五力的强度越强,代表这个行业里的竞争力越激烈,你面对的挑战越大,也就是你现在的赛道是红海。当然红海也证明这个市场是有刚需的,不代表你不能胜利。你可以找到其中一些突破点来颠覆这个市场,比如今日头条就是通过推荐算法颠覆了以门户网站为主要信息获取的方式,从而获得了成功
五力
供应商的议价能力是指供方能通过提高投入要素价格与降低单位价值质量,影响行业中现有企业的盈利能力与产品竞争力。供应商(卖方)的议价能力越强,越证明此时处于卖方市场
买方的影响力是指买方可以通过压价或者提高产品需求来压低卖方的利润。例如你的产品同质化程度高,可选择的类似产品比较多,那就是买方市场
同行业里的竞争情况指的是这个行业里的竞争对手多不多,竞争强度大不大,一般来说门槛低和利润高的行业会快速涌入大量竞争者
创新者带来的威胁是指现在你有哪些挑战者,如果不需要太多的投入,没有太多的门槛就可以进入这个行业的话,那其实你的潜在创新者的威胁就比较高
替代品带来的威胁是指有没有可能出现更高维的一种产品来跨界打击你,它满足客户最终的需求,而不用你现在的这种解决方案
进一步分析
如果你重新做一遍这个产品,你还会这样定位产品吗?如果我们要扩大 100 倍的市场,你会用什么样的解决方案?10 年后这个市场会是什么样子?这个五力模型会变成什么样子?你可以和竞争对手合作获得其中的某些能力么
SWOT 分析
问题场景:整体业务场景与竞争优劣态势
SWOT 分析是一个典型的拿公司和周围环境比对的一个分析,它从内部环境、外部环境、好影响和坏影响做了一个矩阵图,这样的话就可以针对 S (Strengths)优势、W (Weaknesses)劣势、O (Opportunities)机会、T (Threats)威胁这 4 个元素进行分析
进一步分析
不仅是用 SWOT 给自己公司做分析,同时也给竞争对手做 SWOT 分析,这样可以补足整体的大环境
同理心地图
问题场景:如何打动你的决策者
同理心地图是一种通过换位思考的方式,了解别人所处的状态和情绪的方法。我们通过想法、所见、所言所为、所闻去分析对方到底会怎么看这件事。这样能让我们深刻理解对方的想法和所处环境,换位思考,最终引导对方做出对自己有利的决策
要素
想法指的是他在心里有这个想法去做这件事,但还没有表达出来
所见就是他在工作、生活当中遇到的问题,接触的人或产品服务
所言,就是他在工作生活中发表的言论及做法
所闻,就是他经常能听到的声音,比如在媒体上看到的新闻或者是内部的开会得到的一些结论
痛苦就是代表着他对这件事情的承受风险能力、压力、恐惧
收获是代表着他能从这件事中获得的东西,包括物质或者精神上的满足
进一步分析
不仅可以用同理心地图分析重要决策者,我们还要分析重要干系人,包括你的团队的重要成员
4P 竞争分析
问题场景:产品市场营销分析
4P 竞争分析是在产品、价格、渠道、销售加上目标和提供的价值这几个层次下,看自身公司和竞争对手之间的关系,制定相关策略来决定我们的产品营销应该有哪一种定位
4P
产品(Product):功能,要求产品有独特的卖点
价格 (Price):根据不同的市场定位,制定不同的价格策略
渠道 (Place):经销商培育和销售网络
促销(Promotion):品牌宣传(广告)、公关、促销等一系列的营销行为
进一步分析
在这个竞争环境下,什么样的产品可以让客户最满意?其他公司它的优势在什么地方?也可以参考STP模型进一步讨论
奥斯本检验表
问题场景:拓展思路,获得新观点
我们在想新方法时,总有那么一些思路枯竭、缺乏灵感的时刻。这个模型就是为了给你像挤牙膏一样,再挤出新的一些想法
方法
其他用途指的是现有的东西(如发明、材料、方法等)有无其他用途?稍加改变,有无别的用途?
借用指的是能否从别处得到启发?能否借用别处的经验或发明?外界有无相似的想法,能否借鉴?
改变是指可不可以换一种形式?比如换产品形态、改变产品的状态,改变后的效果会如何?
扩大是指现有的东西能否扩大使用范围?能不能增加一些东西?能否添加部件、拉长时间、增加长度?
缩小是指如果把这个东西变得更小更轻,是否可以减少一些功能和成本或者产生新的产品?
取代是考虑一下是不是可以用其他的素材方法取代它
重新调整是从调换的角度思考问题,能否更换一下先后顺序?可否调换元件、部件?更换一下,会怎么样
重整是从相反方向思考问题,倒过来会怎么样?上下是否可以倒过来?左右、前后是否可以对换位置?里外可否倒换?正反是否可以倒换?可否用否定代替肯定
组合是从综合的角度分析问题,如果尝试各种组件合成到一起会有什么效果
进一步分析
其它行业,类似的问题是如何解决的
SUCCESs
问题场景:新观点创意和商业模式评估
这个框架是从 Simple(简单)、Unexpected(意外)、Credible(可信)、Combine(整合)、Emotion(情感)、Story(故事)、Secret(神秘)6 个视角来客观判断创新点子。这个框架可以发现你的创意哪里不足,方便你立刻补充
6个视角
简单指的是想法是否比较简单,其他人容易懂
意外指的是从一般角度来讲,是不是打破了消费者的期望,有没有新的切入点
可信指的是有没有通过可信的事实让其他人产生共鸣,从而在市场培育初期就取得认同,为其进一步发展夯实基础
整合指的是有没有把相关产品进行捆绑销售。跨界的整合创意往往能带来神奇的效果,例如苹果公司就是将硬件、软件和服务融为一体
情感指是否容易让用户产生共鸣
故事指是否以故事的方式加强传播,让人容易记住
神秘指的是有没有通过制造来之不易的体验让消费者很难得到,从而越发珍惜,例如过去的 iPhone 发布会
进一步分析
能否用一句话来说明你的创意?一句话无法提炼出来的创意,一般不是好创意。
产品组合矩阵(气泡图)
问题场景:产品布局,产品当中的业务布局,它是散点图的变种,气泡图
一个赛道里会有各种各样的产品,一个产品会有各种各样的功能,我们每个产品的功能和它的活跃度以及这个产品任何两位维度的评估组合起来就是产品矩阵
你要有一个产品全局观,可以用气泡的大小表示用户活跃规模,横轴代表变现能力,纵轴是导流能力,让人一目了然公司的产品布局或者内部产品功能矩阵的情况
你要有一个产品全局观,可以用气泡的大小表示用户活跃规模,横轴代表变现能力,纵轴是导流能力,让人一目了然公司的产品布局或者内部产品功能矩阵的情况
进一步分析
图中产品和产品或者产品功能之间有什么关系?它们能相互导流吗
商业模式画布
问题场景:分析自身商业模式
商业模式画布可以非常方便地对公司的商业模式进行一个整体的梳理。它通过 9 个关键的因素来分析一个公司整体的脉络,这 9 个元素分别是 KP( Key Partnerships)关键合作伙伴、 KA(Key Activities)关键活动、 KR(Key Resources )关键资源、VP(Value Propositions)价值主张、CR( Customer Relationships)客户关系、 CH(Channels) 渠道通路、CS(Customer Segments)客户人群、CS( Cost Structures)成本结构、RS(Revenue Streams)收入来源
这个画布的最底层是公司的整体的收支逻辑,左侧是公司的组织能力,右侧是针对客户的价值主张和如何采取措施。你可以根据你个人、公司、部门的情况通过这个图把整个业务的逻辑梳理出来
进一步分析
九个因素当中最强和最弱的元素是哪一个?如何发挥优势和补充弱势
AIDMA
问题场景:设计整体客户营销策略
一个客户在购买你的产品的时候是先注意到你的产品,然后产生一些兴趣,当这些兴趣转化成欲望的时候,他才会有购买的行为。或者当他对你的产品有印象后,再见到你的产品时,他会产生购买的行动
AIDMA 这个策略就是将你换到客户的位置上,根据各个阶段(也就是注意、兴趣、欲望、记忆、行动)来具体分析如何获得用户的关注,最后让用户产生购买行为。我们可以在这个表里写下每个客户在当时的情况以及当时他的需求,针对这种情况和需求,你去设计如何让客户获得你产品的各种特性和信息
进一步分析
可以结合前面的同理心地图换位思考一下,客户是否还存在一些没有说出的需求?客户在每个过渡阶段之间会遇到什么障碍?我们如何去排除
AARRR
问题场景:获取客户的各个阶段
AARRR 也叫做“海盗模型”,它把获得客户到最后变成收入之间分成了 5 个阶段,包括获得客户阶段、让用户活跃起来的阶段、留存住客户的阶段、产生购买用户的阶段以及用户传播阶段。通过这 5 个阶段,我们可以把用户从开始和你接触到最后你可以从用户身上盈利的这一整体流程,在模型里阐释清楚。你可以设置每个阶段的目标以及要用户体验到的内容,最终我们可以通过数据分析来看差距
进一步分析
在现在信息过载、产品类别过剩的情况下,获客顺序已经不再是 AARRR,而是大多数产品通过朋友的推荐介绍或者平台的推荐被用户看到,用户再去了解和购买。所以在新形势下的模型往往是 RAARR,也就是推荐、获取、激活、留存和购买。如何获得客户的推荐,是你的公司存活下去的重要指标
SMART
问题场景:确定目标是否明确
每次我们在制定目标的时候,你可能经常会听到你的领导说这个目标并不 SMART,他不是说你不聪明,而是指你的目标无法很明确地传达给下属和团队
SMART 原则就是首先要具体(Specific),结果可衡量(Measurable),制定的目标应该是可实现的(Achievable),所有的这些动作和言论都是结果导向(Result based),所有的目标都是有时效性的(Time-bound)。符合这 5 个因素,才能够把我们的目标写得更清楚
进一步分析
你的目标如果提高 10 倍它还是 SMART 吗?100 倍呢?如果不是,那么倍数变大就无法达成的因素是什么?有没有可能用奥斯本检查表突破它
PDCA
问题场景:反思和改进自己的业务
PDCA 来自著名的戴明环,它是将一个任务按照顺序从计划到执行到检查,再到改善行动,重新去规划,而且不是运行一次就结束,是不停地循环下去
你可以在这个框架里填写要去反复执行来提高的目标,做相应的计划(Plan),再根据设计和布局进行具体运作,实现计划中的内容(Do),再检查和总结我们能否达到目标,找到哪些对了哪些错了(Check),最后,对总结检查的结果进行处理(Act),然后再做新的行动计划(PDCA)。注意每一个动作里面的每一个目标都要有明确的数字,而不是简单去定性问题
进一步分析
在这种不断的循环当中,有没有大方向上直接可以产生的变革?局部的最优解往往不是全局的最优解。局部优化可能无法全局优化,我们需要跳出来高维度思考问题
RACI
问题场景:分拆工作职责,进行工作协同
在做一件事情的时候,往往会有很多人或者很多部门参与,这时候处理好人和人、部门和部门之间的关系就非常重要了
4个角色
Responsible 是要负责执行具体这个任务的执行者
Accountable 是责任人,负责向组织内外说明业务、进度状况,一般是组长或者 Leader 这个角色
Consulted 被咨询者一般是支援的部门和人,也就是在发生困难的时候,可以提供意见或者提供资源帮助你解决的人
Informed 被告知者是需要知道这件事情进度最新消息的人,相当于他们需要邮件抄送
注意
在书写每一项任务的时候每一行只会有一个 A,也就是只有一个最后负责人,因为有两个 A 就意味着有两个负责人,这样就会出现踢皮球的情况
进一步分析
RACI 在最终确认的时候,一般都是由责任人或者和责任人的老板一起来进行规划的,单纯只是你和其他的人员规划不会有太大意义。其中我们的任务拆解是非常讲究艺术的,如果你没有拆解好,可能会出现有的事情没有人负责或者是有的事情由多人负责的情况。此外还有一个叫WBS的工具,你可以通过 WBS 把具体任务分解下去,跟踪相关完成情况和状态
Will, Can, Must
问题场景:寻找做事情的优先级和边界
一个人或者一个公司,都会有想做的事(Will)和自己能做的事(Can)和我们必须要做的事(Must),那么我们可以通过这个框架和团队一起头脑风暴,找到我们做事情的优先级
这三个方向的交集就是我们最高优先级要做的事情。在我们的团队能力提高之后,我们“能做”的这个圈就会越来越大;随着我们业务规模的扩大,我们必须做的事情会变多;随着我们公司市值和愿景上升,我们想做的事情也会越来越多。所以这三个圈中间的交集交得越多越大,我们公司和个人其实发展得也就越好
进一步分析
每一个人想做的事和他能做的事以及他必须要做的事三者之间,往往很难取得最终的一致,但我们不断加强自己的能力,最终会是我们可做和必做事情越来越多,越来越容易(下面两个圈交集变大),这样才能有时间把想做的事情完成,这也就是我们一直学习的原因吧。
5. 分析工具
5.1 工具概览
Excel 是当今小数据分析最好的分析工具(没有之一)
SQL
PowerBI桌面版(mac用不了)
Python
真正数据分析的高手往往是心中有剑,手中无剑,用一个 Excel 也可以分析出惊世骇俗的数据结论
不要只是追求手中工具技术的先进性而忘掉了数据分析思维,外行看的都是数据工具的热闹,内行其实看的是数据分析思维里面的这些门道
5.2 Excel实用技巧
下拉自动填充:多种双击自动填充的方法
单元格里如何换行:Alt+Enter(mac是Option + Enter)
自动重复上一个动作的快捷键:F4
去除科学计数法的符号:单引号
定位,统一处理:F5,Ctrl+Enter
智能填充:Ctrl + E
相对位置、绝对位置
单元格合并、解除合并自动填充
自动分列
自动求和:Alt+=
数据过滤和排序
最大值、最小值、次大值、次小值
选择性粘贴
保留小数位数
条件分支计算
统计个数
去除重复值
字符串处理
vlookup
分类汇总和统计
数据透视表
我们使用大数据算法的时候,往往会把注意力都放到编程当中而忽视了数据本身。我们在做管理决策的时候,往往不是在大数据里面做决策,而是在我们的小数据里。这个时候我们要是有一个得心应手的数据分析工具,就可以帮助我们在工作和生活当中得到更好的分析数据结论,更好地贯彻我们的数据思维。影响我们最终决策的,往往是凝聚高信息熵的小数据,而 Excel 正是处理这方面数据的神器。
5.3 “最新”数据分析工具
数据存储与分析引擎——ClickHouse
使用的不是非常复杂的 NoSQL 编程语言,而是用的很简单的 SQL 语言
宽表查询速度非常快,全球第一
ClickHouse 整体部署和维护安装比较简单,在数据量不是特别大的时候,一台服务器就可以搞定,普通的运维人员就可以维护
数据处理与调度平台——Apache DolphinScheduler
数据展示工具——EChart
6. 书单推荐
《精益数据分析》
“唯一关键指标”(One Metric That Matters)
《刷新》
微软现任 CEO 萨提亚·纳德拉
《原则》
一个企业的没落往往根本原因不是具体业务的没落,而是企业文化的没落
我们的使命是把数据分析的思维贯彻在企业每一个人心中,让它成为企业文化的一部分。
数据驱动要落在人、文化、规则上才可以把一个企业变成数据驱动的企业
《一网打尽》
我们是真的数据驱动,还是“驱动”数据完成老板要达成的业绩?很多时候,真实的数据分析是很得罪人的,但是只有真实才可以让整个企业真正进步
《从优秀到卓越》
所有的招式都是在若干次成功之后总结出来的,是不是适合你的场景,并不一定。学习、讨论,还要多反思,最终希望你能够“无招胜有招”
《看穿一切数字的统计学》
《统计数据会说谎》
《如何用数据解决实际问题》
《简单统计学》
《魔鬼数学》
纳西姆·尼古拉斯·塔勒布
《黑天鹅:如何应对不可预知的未来》(升级版)
《随机生存的智慧:黑天鹅语录》
《反脆弱:从无序中受益》
《终极算法:机器学习和人工智能如何重塑世界》
《怪诞行为学》
题外话
个技术人的正常路线是技术架构 -> 技术总监 -> 技术 VP->CTO
如果你想转型做业务,还有一条路线更适合你,那就是技术开发 -> 数据分析师 -> 数据运营总监 ->CDO->COO->CEO。因为深入数据的过程其实是一个深入业务的过程,技术人员天然理解数据,有强大的数据分析和算法能力,你可以“跨界打击”
7. 数据行业个人发展方向
算法科学家
这是一群算法开发和自动化的专家,他们擅长的是利用手中的算法或者自创的算法,发现现实当中的规律并把它们程序化,最终形成自动化的机制,从而为企业、个人源源不断提供价值
增长黑客
他们熟练掌握数据分析基础知识,同时可以把业务的想法以及创意通过数据的方法进行试验、测试迭代,最终帮助公司提升业务。他们结合了创意营销、数据分析、产品迭代多项技能,最终用数据和运营手段帮助公司实现收入和用户数的快速增长
数据分析极客
他们熟练掌握各类数据工具,有非常强的数据思维。他们可以根据业务的各种情况来进行数据实验和数据分析,有些人走向数据分析师的岗位,有些人走向运营和产品的岗位。他们可以通过数据洞察业务的走向,结合数据分析的基本知识和算法,快速对业务进行调整,最终达到可以洞见业务和世界趋势的境界(投行或者企业当中的数据分析师)
CDO
首席数据官
集大成者
8. 结束语
想法产生行动,行动养成习惯,习惯变成性格,性格决定命运
在做人方面,数据分析思维一定要尊重客观事实,全面完整地通过数据来反映现实世界。既不要被类似辛普森悖论的情况所欺骗,也不要用这样的方法去欺骗别人。客观、坦诚、智慧是我们每一个数据分析思维人最重要的特质
在实践方面,利用数据思维分析做实践的时候,你要知道理想和现实永远是有偏差的,你在做预测的时候一定要适度留出震荡的空间。现实往往没有你想的那么好,当然也往往没有你想得这么差。根据数据分析结果执行的时候,不要太理想主义,毕竟你很难把所有的因素全都考虑清楚
我们都说“谋事在人成事在天”,在用数据分析思维的话来讲,你的实践很可能会出现墨菲定律,也可能取得的胜利其实就是幸存者偏差。你要用一颗平常心,做好万全的准备,不断迭代尝试,根据大数定律的趋势,才能利用数据分析思维最终得到你想要的结果
在决策方面,数据驱动最终的目标是解决公司的经营问题,也就是通过整体环境的判断、经济形势的趋势预测以及行业赛道的变化观察,做出正确的方向性决策。如果做到了这些,其实你已经脱离数据分析师的岗位,走在了 COO 和 CEO 的道路上
用数据分析来决策,一定要敢于做不完美的决定,这不完美的决定背后就是学会断舍离。没有损失的决策,不是好决策。你要通过数据预测和执行调整,把损失控制在可预期的范围内
很多人会有这样一种“执念”:对于人生的终极目标,一定要自己先找到一个正确答案,然后才算是真正开始自己的生活。美国哲学家麦金泰尔说过这样一句话:“美好的人生就是一生都在追求美好人生的人生。”这样来看,我们的人生其实是“边想边做”,并且想和做是分不开的
“人生就是转瞬即逝的鸟鸣”,动听而曲折,嘹亮而短暂。我们应该拼命热爱,珍惜经历的一切,不论是开心还是痛苦
1. 开篇词
数据给你一双看透本质的眼睛
数据分析不是工具,而是要深入业务,有业务结果
数据是客观的,但是解读数据的人是主观的【数据分析的先入为主的偏见、数据表达形式上的诱导等】
数据这门科学就像中西医混合的一门医学,既要有西医的理论、分析模型以及实验,又需要有中医的望闻问切这些个人经验
在这个数据为王的时代,我们缺乏的不是工具、算法,而是数据思维【日常工作、组织管理中,需要更加强调意识,同理】
这世界缺的真不是算法和技术,而是能用算法、技术解决实际问题的人
数据是有灵魂的,我将用我一生去追寻它
目标:再看待同一件事情的维度和以前不一样了,你可以用数据的维度来诠释你身边发生的事情,用数据的思维来做出你的判断
万物背后的规律都是数据,数据背后的规律是算法【可以结合数字孪生的概念思考】
数据应用场景(趋势)
大数据
更多针对的是个人数据
数据量大
每行的信息量(也叫熵)很小
需要人工智能的数据挖掘算法
业务支撑
【辅助决策类动作,我们现在很多时候被大数据遮蔽了双眼,忽视了小数据的价值,以为传统数据分析理论是初级,最终是要走向人工智能的,
其实这是两条平行的路,走在不同场景的应用中】
【辅助决策类动作,我们现在很多时候被大数据遮蔽了双眼,忽视了小数据的价值,以为传统数据分析理论是初级,最终是要走向人工智能的,
其实这是两条平行的路,走在不同场景的应用中】
小数据
企业经营范围内的数据
数据量小
数据价值(熵)会非常大
数据分析理论
内核动力
【关于熵的思考】
有一种说法,是熵代表着可能的组合态的多少,可能性的大小
具体到一行数据,5个字段,每个字段2种取值,就是2^5,32种可能
10个字段,每个字段2种取值,就是2^10,1024种可能;
显然后者可能的组合态更多,熵更大
10个字段,每个字段2种取值,就是2^10,1024种可能;
显然后者可能的组合态更多,熵更大
熵大,代表的不确定性会更大,也会更加混乱
所以我们需要通过认知的升级,来达到熵减的目的
数据本身很重要,同样重要的是数据的分析和表达,用数据的表达去影响他人
其他有趣见解
一是商家的花样营销,比如第二件半价,让人感受上是半价优惠,其实只是七五折;
二是学历分布,有的人说“硕士遍地走,学士不如狗”,其实是忽略了总体占比和地区分布,比如在一线城市的核心区,只看周围确实很容易有这种误解
二是学历分布,有的人说“硕士遍地走,学士不如狗”,其实是忽略了总体占比和地区分布,比如在一线城市的核心区,只看周围确实很容易有这种误解
2. 数据分析基础
2.1 平均值不能代表整体水平
生活中的误区(算数平均值)
平均住房面积
被幸福了
平均工资
又给大家拖后腿了
数学上的平均值
算数平均值
几何平均值
平方平均值
调和平均值
加权平均值
结论
1. 平均值是用所有样本数据计算的,容易受到极端值的影响。在不少情况下,平均值是没有价值的,它无法客观准确地反映数据整体情况
2. 整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值,其实是没有意义的
3. 整体平均值不能代表各分组情况,分组结论和整体平均值结论可能会大相径庭
辛普森悖论
1951 年由 E.H. 辛普森提出
在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方
“质”(命中率)与“量”(投球数)是两个维度的数据,如果全部合并成“质”(命中率)这个维度的数据,那就会出错了
启示
1. 看到一个平均值的时候,你一定要留个心眼,看看它的数据构成情况,而不是简单地用平均值去代表所有的整体。生活是具体的,如果你想看到更为准确的数据,你应该分组拆开来看。因为辛普森悖论告诉我们,有的时候,在分组比较中占优势的一方,在总评中反而可能是失势的一方。但你要注意,只是“有的时候”
2. 每次小范围内的输赢,其实和你在整体上的输赢没有太大直接的关系。这也是为什么在打麻将或者打德扑真正赢的那些人,不是那些小牌把把赢的人,而往往是赢一把大的人
3. 将来你要用数据分析做决策的时候,小到打牌、大到做投资,不要过于计较局部的得失,而是要在关键时刻对大概率有把握的事情放手一搏
总结
“质”与“量”是不等价的。所以当你不被大部分人所理解时,有可能是因为你选的路是一条少数人走的路。平均值和辛普森悖论告诉我们要抓大放小,不要因为某一个单项优势就洋洋得意,也不要因为局部失败就一蹶不振。生活,要有一颗平常心,我们的目标是让我们这一生的“人生平均值”逐步提高
其他有趣见解
只有对符合均匀分布和正态分布的整体使用均值才有意义,沟通交流只有基于共识才能有效,否则人们要么在寻求达成共识的路上,要么话不投机半句多
聚类和关联算法背后的哲学逻辑,断舍离,人的一生非常短暂,在值得投入的人和事情上面深度投入,不值得的事情一分钟都嫌多
先胖不算胖,后胖压倒炕
赢得了每一场战役,却最终输掉了整个战争
整体的平均值不一定能代表整体,还要考虑个体是否符合均匀分布或正态分布。用平均值来评价缺乏起伏的一生无可厚非,对于大起大落的人生则有失公允
我们还远未到盖棺定论的时候。依据辛普森悖论的提示,找到隐藏在整体平均值下的分组平均值,也就找到了自己的优势和劣势。你可以选择填补自己的短板,也可以根据比较优势理论,将资源投入到你更擅长的事情上,猛投2分球。哪种选择更好?这是另一个价值观上的取舍,但至少要先认识到自己有选择
贪心策略适用的前提是:局部最优策略能导致产生全局最优解。没有这个前提,会走入局部最优整体劣势的错误结果
对于数据的合理解读,比获得数据、罗列数据更为重要
国家的政策也正由局部最优向整体最优调度,我们自己耐心做好自己的人生优化,拥抱整体胜利
2.2 大数定律与小数陷阱
大数据定律
我们在去抛硬币的时候,虽然每次抛出正反面的概率应该各是 50%,但是我们抛 10 次却不一定是 5 次正面、5 次反面——因为我们抛硬币的次数不够多,最后反映出来的结果也并不够客观。换句话说,你看到的结果都是各种偶然的极端情况。
大数定律是由瑞士数学家雅各布·伯努利提出来并验证的,它的核心逻辑是说当随机事件发生的次数足够多时,发生的频率才会趋近于预期的概率
理解这个“足够多”,其实也就是我们理解这个问题的关键。“足够多”数学上叫“无穷大”,生活里也会叫做“足够大”。你有没有想过,那么数量多大才叫“足够大”呢?10 次肯定是不行的,那应该是 100 次,还是 1000 次?
小数定律/小数陷阱
小数定律是科学家阿莫斯·特沃斯基等人在研究“赌徒谬误”时做出的一个总结
那么我们在赌场里玩轮盘赌大小时,如果前面开的都是“大”,那我们接下来应该向“小”去加倍下注。因为理论上长期来看出现“大”和“小”的概率应该是趋于一致的,所以未来出现“小”的概率应该增大。是不是事情真会像我们想的那样呢?还真不一定,这就是一个典型的对大数定律的误读,它叫赌徒谬误,我把它叫做“小数陷阱”。
就拿轮盘赌来讲,虽然前面轮盘转出几轮“大”了,但其实后面每一次转出来“小”的概率还是不变的 50%,也就是说每次的事件其实和上一次的事件是独立且随机的,并不是前面都是“大”,后面开“小”的概率就会高
启示
1. 对于大数定律来说,我们做事不要轻易跟风
【你刚开始,别人已经达到大数据定律的足够大】
“否极泰来”需要足够多的次数才可能出现,做事情要少一些“赌徒心态”,多一些平常心,不要盲目跟风和下注才能获得最后的成功
2. 对于小数陷阱来说,我们要保持一颗平常心
你需要意识到,我们在生活中的数,绝大多数都不够大,所以我们的偶然只是偶然,并不是我们这段时间就该倒霉
要学会把一件事情放在足够长的时间轴上去评判(尤其是当这件事对你特别重要时)。当你遇到各种不如意时心态不要崩,要持续在你认为成功的路线上持续努力,并且努力足够长的时间足够多的次数,相信你最终会有一种“拨云见日”的感觉
3. 建立自己的“大数据定律”来规避“小数陷阱”
多利用前人的经验,站在前人实验的结果和规律上,多去学习、阅读,多去经历、总结自己想从事的事业
任何时刻都不要放弃自己的追求,人生只有努力才是向上的,这才是你一生的“大数定律”。我想在这里送你一个成语,叫做“慎始敬终”。“慎始”指的是要想清楚,有没有持续投入的准备,没有想清楚就不要开始。“敬终”指的是,一旦做了,持续投入,从头到尾踏踏实实落实
其他有趣见解
若干年前,读基督山伯爵,小说最后大仲马指出“等待和希望”是人类所有智慧的集合,从此这2个词作为我的人生座右铭,支撑我走过多个灰暗阶段。今天又得一词,慎始敬终,指导如何做事的终极智慧
多数人的数据思维错误
①迷信小概率事件的幸运
②轻视小概率事件的风险
③忽略大数定律下,艰苦学习不断超越自己这条路,比一次次抄近路宽敞得多快的多
①迷信小概率事件的幸运
②轻视小概率事件的风险
③忽略大数定律下,艰苦学习不断超越自己这条路,比一次次抄近路宽敞得多快的多
2.3 数据的期望值
墨菲定律
如果有两种或两种以上的方式去做某件事情,而其中一种选择方式将导致灾难,则必定有人会做出这种选择
其他诠释
任何事情都不会像它表面上看起来那么简单
所有任务的完成周期都会比你预计的长
任何事情只要有出错的可能,就会有极大的概率出错
如果你预感某件事可能出错,它一定会出错
数学原理
期望值
期望值就是对可能出现的结果以概率为权做加权平均
概念区分
均值/期望值
事前预测
均值(也叫做期望值)英文是 Mean,它是事前预测的,这个值完全是由概率分布决定,也就是我们前面所说的“对可能出现的结果的概率加权平均”
期望就是反映在大数定律下多次执行某件事情之后,得到的一个最可能的收益结果
平均值
事后统计
平均值叫做 Average,它是事后统计,统计样本值的总和除以样本的个
当样本量 N 趋近无穷大的时候,样本的平均值无限接近数学期望(日常计算时时候相等)。这句话是不是听着很熟?
对,这就是大数定律(Law of Large Numbers,LLN)
对,这就是大数定律(Law of Large Numbers,LLN)
墨菲定律的解释
1. 人都有一个特殊的心理机制,那就是倾向于记住一些不好的事情;坏事情的心理影响大于好事情的心理影响
2. 你在担心一件事情的发生之时,这件事情已经具备了发生的大多数条件【要不然也不会担心】
3. 墨菲定律的原理其实是由我们对于好事情和坏事情的期望值差异造成的。简单讲,印象深刻再加上担心的时候概率高,自然也就担心什么发生什么了。
规避墨菲定律
方法
1. 对于心理影响来说,我们要做的就是不断调整事情对你心里影响的预期,让它们趋同。特别是遇到坏事情的时候,你可以通过增加 B 计划等方式,调整预期以降低坏事情发生对你的心理影响
2. 对风险的概率来说,你可以优化流程,提高自身能力,尽可能减少事件出错的概率
生活中的应用
1. 为大概率坚持,为小概率备份
2. 已知的是成本,未知的才是风险
3. 项目风险控制
风险控制论
静态风险
动态风险
局部风险
整体风险
4. 生活中的风险控制
提前识别风险
预留充足时间
小事落到实处
数据分析解释给你的是现实背后的规律,学以致用才可以让它们发挥最大的价值
总结
1. 对平均值来说,你要学会为不同事物去分组,用更细分的数据来看待问题
2. 对于大数定律来说,要成事,其实需要我们不要有赌徒心态,要学会持续投入
3. 而对于期望值来说,平衡预期和未雨绸缪这两个词,希望你能够在生活中灵活运用
没有事情可以一蹴而就(平均值),我们需要努力足够多的次数(大数定律),学会规避风险(期望值)
这样最终在若干年后,企业和个人才能有一份满意的企业 / 个人数据报表
这样最终在若干年后,企业和个人才能有一份满意的企业 / 个人数据报表
其他有趣见解
做最坏的打算,做最好的准备,这正是墨菲定律准备方法
破解墨菲定律,无非就是降低期望值和多做准备,而总在担心是不会改变结果的
2.4 随机对照试验
随机对照试验是由“现代统计学之父”、数据分析的鼻祖——罗纳德·艾尔默·费希尔在《试验设计》一书中提出的“奶茶试验”
试验要点
随机
对照试验
伪随机
所谓伪随机,就是看上去产生的过程似乎是随机的,但实际上是确定的
案例
幸存者偏差,大部分用户其实并不愿意花时间填写设计的调查问卷,一般愿意填写的都是对这个产品比较感兴趣的人
或者使用度比较高、希望产品能有一些改进的人,因此这样让用户填写反馈,往往会产生“伪随机”这个问题
或者使用度比较高、希望产品能有一些改进的人,因此这样让用户填写反馈,往往会产生“伪随机”这个问题
如果我们选择样本的随机程度不够,或者我们自己对数据的理解程度不够,就经常会出现一些“小确幸”的事情【其实是高概率事件】
随机对照试验的应用
医疗行业的临床医学
生物科学的基因遗传学
还是互联网黑客增长理论当中的 A/B 测试
幸存者偏差
幸存者偏差就是当取得资讯的渠道仅来自幸存者时,我们得出的结论可能会与实际情况存在偏差。因为这样做看上去结果的确是由随机对照试验产生,但在逻辑上是错误的,这其实是在用结果来倒推整个前期数据的产生过程
只要样本量足够大,就一定会出现一个“幸运儿”,能够“碰巧地”预测对所有的场景。
在章鱼保罗之外,其实有很多的预测者“牺牲”在了随机概率里,它们不够“幸运”不能被我们看见,只有章鱼保罗足够幸运,成为了能够被我们看到的“幸存者”。另外,从章鱼保罗自身的预测结果来看,你会发现其实我们只是看到了它预测成功的部分,忽略了它也有预测不成功的时候,这也是另一种幸存者偏差。
启示
当我们不知道客观世界里一个问题的真正答案的时候,可以通过少量的数据来验证非常大的数据规律
并没有“预言帝”和“赌神”的存在,我们看到的只是大规模数据背后的“幸存者”
当你再看到类似“读书无用论”、“工作都是别人的好”之类的说法时,请你留个心眼,想想我们这节课讲的知识,这些说法到底是不是一种幸存者偏差?
当你看到一些“成功学大师”向你兜售一些成功心法时,不要盲从所谓的权威,如果有可能,我们最好站得高一些,从多个经济周期的维度去评判某件事物或者某个人
不要总想着如何从成功者那里学习如何成功,也要从失败的人那里总结为什么会失败,因为成功很大程度上来说,就是一个去避免失败的过程。毕竟别人的成功你不一定能复制,但别人踩的坑,你若不注意,很大几率你也会摔一跤【查理·芒格的思想亦如是】
总结
1. 在我们工作和生活当中,一定要注意不能犯同样的“错误”——采用非随机的结果来证明我们的观点,更不能用幸存者偏差——拿结果倒推原因来解释我们的一些结论
2. 注意自己“不犯错”是一方面,另一方面我们也要学会“发现错误”,学习前人失败的经验教训
其他有趣见解
我们村二狗子大学毕业找不到工作,去工地搬砖了个,所以上学无用。用单个个体得出某结论,非常荒谬,这个过程忽略了沉默的数据
还有女博士,前几年似乎被黑的也挺狠
还有女博士,前几年似乎被黑的也挺狠
事实上,“沉默的数据”永远要比实验数据更多,一定意义上来说我们得到的结论都存在一定的“偏差”,也就是通俗意义上讲的“认知局限”,只不过随着大数据的不断发展,这种局限性和偏差越来越小
2.5 直方图与幂分布
直方图
直方图最早是由数据统计学家 Karl Pearson 在 1891 年引入,它可以用来统计现实生活中各种各样的数据分布情况
直方图可以让你从混沌的数据里面找到其中的规律
简单区分直方图与柱状图
直方图是展示数据的分布
柱状图是比较数据的大小
幂律分布
从直方图体现出来呈指数下降或者上升的分布形式,科学家们把它叫做“幂律分布”
幂率分布也叫做指数分布,你会发现在这种分布里,X 轴的开始的地方数值很高(或很低),然后以指数级的下降(或上升)到 X 轴的末尾段,按照统计学定义叫做:“分布密度函数是幂函数的分布”
马太效应
我们身处的世界是赢者通吃的世界,开始时细微优势最终将带来无穷多的回报。反之,最初的细微劣势也将导致最终一无所有。这个现象也有人称之为“马太效应”,在圣经《新约·马太福音》中是这样描述的:“ 凡有的,还要加给他,叫他多余。没有的,连他所有的也要夺过来 ”
帕累托法则/二八法则
二八法则简单来说,就是 20% 的人占了 80% 的资源,剩下 80% 的人分最后 20% 的资源。这个法则诞生于帕累托的花园。有一天帕累托偶然发现,自己园子里绝大部分的豌豆是由园子里极少部分豌豆荚产生
法则的背后原理就是幂律分布
在互联网领域里才会有这么一句话:一个领域只有第一、第二,没有第三
幂律分布与帕累托法则其实都强调了重要的少数和琐碎的多数,从某种意义上来讲,世界从来都不是平衡的
启示
在日常生活里,不要把所有事都放在同一个优先级上,而是学会用帕累托法则去看待问题,找出最重要的 20% 的问题,并最优先解决。同时,你也要留个心眼:为什么这 20% 的问题对你来说最为重要
每天在我们自己的专业领域里面,或者你的企业在所在的赛道里,只要你比其他人或者其他企业多成功 1%,最终积累起来的竞争优势将使别人无法超越,你就会变成那个能够大声说“我全都要”的少数派
工作中的应用
1. 在你一天的工作分配当中,由于 80% 的工作都是日常反馈,你是否安排了自己最清醒的时间去处理最重要的 20% 工作
2. 你所在的公司,是不是由 20% 的客户来为公司提供了 80% 的利润,如果是,应该如何留住这些客户
3. 在团队里,杰出贡献是 20% 的人做的,80% 的人是配合,那么针对这 20% 的人,你应该如何留住他们
4. 能否通过弥补 20% 的质量缺口去获得 80% 的收益(或者避免 80% 的客户投诉)
5. 在最有效的 20% 的时间内,如何引导团队做出 80% 的相关分析
其他有趣见解
天之道,损有余而补不足;人之道,损不足而济有余。越是自然形成的越符合正态分布,越是人为制造的越符合幂律分布【天之道,均值回归;人之道,马太效应】
2.6 数据分布
其实在实际生活当中,我们最常见的是正态分布和拉普拉斯分布,这两个分布反映了现实生活当中隐藏在数据背后的“势”。了解这些数据的趋势,才可以让你更好地了解实际的工作和生活本身。
正态分布/高斯分布
最早用正态曲线描述数据的人,就是那位你我都熟知的德国著名数学家高斯,为了纪念他,有时候我们也把正态分布称为高斯分布。在德国,十马克的纸币上都留有高斯的头像和正态分布的曲线
正态分布这个名字不是高斯取的,而是由达尔文的表兄弟弗朗西斯·高尔顿命名。高尔顿开创了遗传学的统计研究,并用正态曲线来表明他的研究结果,这个名字后来广为流传
定义:如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布
两头低、中间高然后左右轴对称的钟形曲线
应用
调研用户样本的量级,与准确率/误差率之间的关系
正态分布表
中心极限定理与大数定律的区分
大数定律研究的是随机变量序列依概率收敛到其均值的算术平均,说白了就是为了说明频率在概率附近摇摆,也为我们将频率当作概率提供了依据
大数定律在抛骰子这件事上,大数定律说的是只要你抛的次数足够多,骰子每一个面向上的概率应该都是 1/6
而中心极限定理要求的是独立随机样本,在中心极限定理下,随着样本数量趋于无穷大,独立随机样本和独立随机样本和的分布会越来越像正态分布
中心极限定理。比如你抛 6 次骰子发现求和是 18,你又抛 6 次发现加起来是 20,你又抛了 6 次,这次发现加起来是 25。如果你抛的次数足够多,你把 18、20、25 等这些数据画出一个图来,这个图是符合正态分布的
大数定律和中心极限定理说的不是一个维度的事情。大数定律算的是概率,中心极限定理算的是样本和的分布
拉普拉斯分布
拉普拉斯分布是一个“凸”字形的塔尖儿曲线,从左到右,斜率先缓慢增大再快速增大,到达最高点后变为负值继续先快速减小,最后再缓慢地减小,所以有点像“往里边凹陷的金字塔”
对比正态分布的概率密度函数图像,我们可以看到拉普拉斯分布图像是尖峰厚尾的,塔尖上的那些,就是我们看到的稀缺资源
全国的城市房价分布、一个城市当中的小区房价分布现在也是符合拉普拉斯分布的。因为在信息透明和市场竞争的情况下,工资、房价、股票都会符合一个特点:越塔尖的个体越具有资源吸附能力。那么在整体资源恒定的情况下,这已经不是一个简单的符合随机分布的市场了,简单来讲,“大势”变了
“Work Hard, Play Hard”,因为这句话背后的含义其实是指当你要获得更多的自由的时候,你也要付出同等的甚至更多的自律(控制自己既能使劲玩也能使劲工作)。当今社会的人才分布是呈拉普拉斯分布的,我们要争取做顶尖,这样才会有更多的资源和机会
2.7 散点图与相关性
散点图被称之为万图之王。在 1913 年,美国一个叫做亨利·诺利斯·罗素(Henry Norris Russell)的天文学家用散点图把宇宙的趋势给揭示了出来
散点图
三个原则
1. 散点图反映的是两个变量之间的关系
散点图的变种——气泡图有更多维度,但是从趋势角度来看,还是要把最重要的两个变量分别放在 X 轴和 Y 轴
2. 为了能够明确展示数据之间的趋势,我们的 Y 轴必须要从零开始
3. 为了表示趋势的清晰,我们一般都会添加一条趋势线来表明背后的规律
趋势
正相关/负相关
指数增长
正U型/反U型
U 型曲线在很多场合也适用,例如员工工作时长和公司收入的关系(适度 996,不要 007),客户满意度与公司利润的关系(没有口碑的公司破产了,不加控制让客户全部高度满意的公司也都破产了)
不相关
平行于X轴
复杂趋势
常见雷区(错误点)
1. 趋势误判
趋势误判是指在你看到了一个数据之后,因为数据整体还不够完整,你错误判断了这个数据的未来增长趋势
没有正确的数据验证,千万不要轻易下结论
2. 得克萨斯神枪手谬误
当年在美国西部得克萨斯州发现一个神枪手,他经常在各地的民居的墙上练习射击,几乎他所有的弹孔都集中在十环左右这个中心的区域。他已经成为了神话,人们一直在寻找他。但是当人们真的找到了这个神枪手后,发现他自己打枪其实一点都不准,也不敢跟其他人去决斗。那他墙上的这些靶子和子弹点是怎么形成的呢?后来人们才发现,原来他是先朝墙上开很多枪,然后在弹孔最密集的地方画上了十环的靶子,再把散布在其它地方的弹孔用原来的泥土补起来。这样看上去,他每个地方打的靶子都很准确,因为先有弹孔,再有靶子
看清背后所蕴含的实际数据是不是涵盖了所有的数据,还是只给你看了最有这种数据规律的数据
3. 幸存者偏差
邻居家的小孩永远比我们要更厉害,其实孩子都是差不多的,只不过最后我们看到的是邻居家小孩当中的那些优胜者;自古红颜多薄命,也是因为我们只把目光放在了少数的红颜身上;天妒英才也是因为我们没有过多关注普通人究竟寿命几何
在分析散点图的时候看到了规律,还要了解最终这个规律形成的原因和背后的场景,不要简单通过一个图表就得出你的结论
在工作和生活当中,每天都会有各种各样的事发生,如果我们只是关注事情本身,而没有看到背后的规律,那么我们就会像没有趋势线的散点图一样,都是零散的点,抓不住背后隐藏的那根线,感觉每天都是忙忙碌碌,但其实自己碌碌无为。画这根线就是要找到你生命里的规律,在数据科学里我们叫做算法,生活当中我们叫做哲学。
2.8 标准差
代表一组数值和平均值相比分散开来的程度
离散系数 CV(coefficient of variation)
离散系数 = 标准差 / 平均值
规避了单位或者其他因素的这些差异
标准差的用途
衡量数据的差异程度
衡量一个人或者一个团队的稳定性
平均数衡量战斗力
标准差衡量稳定性
标准差非常大,属于突击型选手
标准差很小,属于细水长流型选手
代表着一个行业里面的波动情况
像黄金一类很少波动的东西出现了这么大的波动,达到 6 个标准差的波动时(本来稳定的标准差发生了巨大改变),我们就把这种事件叫做“黑天鹅事件”
再看到黑天鹅事件的时候,你要知道这个说法是从标准差这里衍生出来的概念
标准差与标准误差
标准差是针对确切一次的已知统计结果,反映的是在一次统计中,个体之间的离散程度,也可以说标准差是针对具体实例的描述性统计
标准差(Standard deviation)= 一次统计中个体分数间的离散程度,反映了个体对样本整体均值的代表性,用于描述统计
标准误差代表一种推论的估计,它反映的是多次抽样当中样本均值之间的离散程度,也就是反映这次抽样样本均值对于总体期望均值的代表性,它主要是用于推断整体情况预测和推算使用
标准误差(Standard error)= 多次抽样中样本均值间的离散程度,反映了样本均值对总体均值的代表性,用于推论统计
标准差针对已经发生的事情,它是平均值的一个补充标准。而标准误差是多次抽样当中对样本离散程度的描述,用于推论中使用
标准误差的用途
我们常见的六希格玛(Six Sigma),其实就是指所有的产品质量问题需要控制在 6 个标准误差里面
你听到的产品质量或者运维故障控制在 3 个 9 或者 5 个 9,说的也是误差范围。5 个 9 的意思就是 99.99966% 的产品是没有品质问题的
在一个标准误差范围里,大概就是图里面的 68.3%;两个标准误差范围里也就是距离均值(标准件)的 95.4%;三个标准误差就是 99.7%;6 个标准误差(也就是 6-sigma)也就代表着要控制到在生产的产品中,有 99.99966% 的产品是没有品质问题的(每一百万件产品中只有 3.4 件有缺陷)。
总结
我们中国人其实是比较喜欢“中庸”的这种感觉,用标准差的视角来看,就是自己做事做人的标准差要小
“严于律己,宽于待人”
把六西格玛的思想不仅用在工作中,也用在生活里,对自己高标准、严要求一段时间,相信你会获得更进一步的成长
躺平无罪,奋斗有理。我们可以用六个标准误差来要求自己,但是别人也有用一个标准误差要求自己的自由
有趣见解
《行为科学统计精要》
标准差让我想起了一个词,叫“长期主义”,大部分时间变化不大的情况下长期做一件事情
2.9 数据抽样
把数据抽样称作数据分析方法的“涡轮加速器”,用好它你可以快速地收集到你想要的数据,从而更好地指导你的工作和生活
小数据抽样
简单随机抽样
简单随机抽样就是从总体 N 个单位中随机地抽取 m 个单位作为样本,使得每一个样本被抽中的概率相同。这种抽样的特点在于每个样本单位被抽中的概率相等,每个样本单位完全独立,彼此间没有关联性和排斥性
存在执行层面的问题,可能导致数据偏差
适用场景:样本数量少,构成单一
系统抽样
系统抽样方法就是依据一定的抽样距离,从整体中抽取样本。好处是比较简单而且不容易出错,组装工厂里对手机质量进行抽样检测用的就是这个方法。
系统抽样解决了在随机抽样执行过程中无法真正随机的问题
适用场景:人群的接触概率基本相同
分层抽样
分层抽样就是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而保证样本的结构接近于总体的结构,提高估计的精度
分层抽样的可执行性太差
适用场景:资源充沛,追求精确统计
整群抽样
整群抽样就是将总体中若干个单位合并为组(这样的组被称为群),抽样时直接抽取群,然后对所选群中的所有单位实施调查。抽样时只需要群的抽样框,可以简化工作量。分层抽样和整群抽样不太好区分?告诉你一个分辨小技巧:分层抽样是先分层再从各层抽样本,整群抽样是先分群再抽一个群调查
精度较差,很可能出现一些偏颇的情况
适用场景:资源有限,可以降低精度
大数据抽样
舍恩伯格《大数据时代》的三个思维
要全体不要抽样
要效率不要绝对精确
要相关不要因果
大数据并不是否定统计学,大数据是一个综合了统计学、工程学、人工智能等的综合学科,扩展了这些学科的边界。
需要抽样的原因
1. 大数据下的统计分析也可以沿用小数据的抽样算法,这一点是具有理论基础的
2. 大数据也要了解数据的构成,可以进行合理抽样
3. 从数据量级看,合理的抽样方法可以有效提升计算效率
蓄水池算法
给你一个长度很大或者长度大小未知的数据(流),并且你只能访问一次该数据(流)的数据。请写出一个随机选择算法,使得选中数据流中每个数据的概率都相等
我们需要把抽中做统计的印度人都放到一个游泳池(蓄水池)里。假设我目标是只抽 n 个人,这就有一个有 n 个人容量的游泳池,抽中的人都站在这个游泳池里面。当游泳池站满了以后,再往里加人的话有一定的概率会把游泳池里面的人给挤出来,也有一定的概率是新加的人根本挤不进去游泳池(想象一下上班时间的北京地铁)。这样无论一共有多少人进来,他都有一定概率挤进游泳池里或者被挤出去,游泳池里面最后留下来的人,就是我们要的随机的 n 个人,这些就是我们的抽样结果。我们最后统计这些人的新冠阳性情况时,就可以说我们是随机抽样的,而不用管印度一共有多少人口了。
过采样和欠采样
总结
古人说“管中窥豹,可见一斑”,那么对应到我们的数据分析上,说的就是合适的数据抽样算法能够由点及面地看到事物的全貌。
2.10 指数和KPI
凡是用指数描述的东西,都是一个长期存在或者需要大范围衡量的事情
指数 = 变量值 / 标准值 * 100
举例
上证指数
用户忠诚度指数
复杂度在于对业务的定义
智商
启发:当我们要制定某个指数,比方说设定 KPI 的时候,我们要注意不要光看公式的建立,而是要把一系列定义调整的制度算法规定出来,否则很多 KPI 项目最后 KPI 完成了,但其实公司目的并没有达成
指数不是一个简简单单的加权平均值,它背后映射了一套管理的思维逻辑
小故事:话说有一天,小王发现路边上有两个人在热火朝天地干活:一个人在前面挖坑,土坑挖完后,后面的那个人赶紧跑上去把坑重新填上。小王就很疑惑,这不纯属在瞎忙活嘛!于是小王上前询问二人为什么要这么干。最后一问发现,原来是负责种树的那个人请假了,只剩下挖土填坑二人组自己完成自己的 KPI,而没有完成种树这个目标
最近新流行的管理方法 OKR,其实是为了规避 KPI 管理的一些缺点,在某种程度上借鉴了指数建立和调整的规则:建立好目标 O 之后, KR 可以进行动态监测和调整,并为之建立一套分层和计算调整体系。这里最关键的是对 K(也就是 key messuarement)的定义和相关的针对 O 的调整方法,和今天所讲的指标的定义和管理方法很类似,这套方法没定义好,不管是 KPI 还是 OKR 都很难有好的管理效果
其他有趣见解
数字中国,最关键的是各种指数的定义和修正机制的建设
德鲁克说过,如果一件事你无法衡量它,你就无法增长它。指数的作用便是如此
2.11 因果倒置
相关因果倒置——鸡叫导致天明
典型的因果倒置就是天亮了鸡就开始打鸣,但是我们不能说是因为鸡打鸣导致了天亮
往往由于我们对事实的逻辑不清楚,我们会把事件的结果当成原因,这就会导致我们得到一些荒唐的结论(鸡打鸣导致天亮)。最终,如果我们按照这个数据结论进行操作,往往得不到我们想要的结果,还可能造成严重的危害
所以当我们看到数据结果的时候,一定要仔细推敲其中的业务逻辑,同时进行反向测试
相关性而非因果——吸烟真的致癌么
因果是充分条件,而不是必要条件
不要轻易下因果关系的结论,相关并非因果。
遗漏 X 变量——找到背后真实原因
当我们在日常生活和工作当中看到两个数据强相关的时候,即使不能把它们当成因果关系,也可以顺藤摸瓜找到可能的原因,再用业务逻辑或者实验去验证这个可能的原因是否为真实原因。缺乏业务逻辑的数据,永远只会是数据。缺乏数据的业务逻辑,也永远只是在纸上的一个业务逻辑图而已
以偏概全——伯克松悖论
统计数据本身因果逻辑成立,但是以偏概全
伯克松悖论指的是当不同个体被纳入研究样本的机会不同时,研究样本中的两个变量 X 和 Y 表现出统计相关,而总体中 X 和 Y 却不存在这种相关性
看上去有因果关系的数据,还要看数据集的比对性才可以给出数据最终的结果
控制数据范围——神枪手谬误
很多统计结果其实是被操纵的,他们把某些机缘巧合之下比较好的结果的相关数据放到一起,去证明一个不可能的事情,但是如果你再换一组数据,那么你就没有办法证明这个因果关系
在看最终数据分析报告的时候,一定要看它的数据是不是先有枪眼再画靶子,或者先找到满意的结果再给你看统计数据,我们需要的是通过大量的随机样本给出的结果
时间长度不足——替代终点问题
有一些数据在分析和统计时,由于时间长度不够,会造成数据统计的结果不准确。这个在学术上我们叫做“替代终点问题”( surrogate endpoint problem)
所以对于现在各种各样的保健品,如果它的宣传的作用是可以延年益寿的话,那大部分都是收你“智商税”的,因为这种测试非常难以完全实现。即使服用这些药物的人最后长寿了,那也不能够代表这两种之间存在着因果关系,很有可能只是前面讲到的相关性
风险投资人在选择创业公司的时候,其实是靠大的方向和辨识团队来进行投资,而不是靠具体某些数据来表明这个创业公司是否靠谱。因为相对一个创业公司来讲,公司的成立时间太短了,公司的数据不代表趋势,这就是替代终点问题
几个生活场景
1. 打篮球真的能让人长高吗?这很有可能是因为长高的人都会去打篮球,而不是打篮球让人长高——因果倒置
2. 喝咖啡可以长寿?常喝咖啡的人一般都是白领阶级,他们的营养供给更高,所以他们可以长寿,而不是因为咖啡让他们长寿——相关性而非因果关系
3. 吃不吃早饭其实和你肥不肥胖没有什么关系,运动健康才和你的肥胖有关系——相关性而非因果关系
4. 爱笑的女孩子通常运气都不会太差?爱笑的女孩其实运气也有差的,最后她就不笑了,事实是因为运气好的女孩她们才会爱笑——因果倒置
5. 会撒娇的女人更好命?女人好不好命其实与另一半或者周围的人和环境更有关系,而不是和你会不会撒娇有关系【环境、另一半好,更可能允许撒娇】——需要找到遗漏的 X 变量
6. 所以看上去是虱子使人健康,其实是体温高导致虱子不栖息在人身上。所以,岛上居民的结论应该是看到没有虱子的人应该让他去就医,因为他发生了疾病。在原始部落并没有体温计,这个结论的确可以帮助到他们,而不是盲目的相信“虱子让人健康”
其他有趣见解
星座判断人的性格,以偏概全,和广告投放的例子类似。星座判断的比较准的人会告诉别人,不准的人一般不会宣传出来。得到的结果是星座判断人的性格很准。另外,星座判断人的性格,有些性格写的比较模棱两可,让人看了之后会往上想,确实是那样
所谓的“星座判断性格”其实可以用巴纳姆效应(Barnum effect)来解释,也就是说人很容易相信一个笼统的一般性的人格描述,并认为它特别适合自己并准确地揭示了自己的人格特点,即使内容空洞。而在实际的生活环境中,也有很多处事圆滑的人善于用这类的说辞来社交周旋
星座其实是心理学和统计学的博弈
很多事情并不是因为有兴趣才做的好,而是因为做的好才有兴趣
3. 数据算法基础
3.1 精确率与置信区间
衡量算法、模型的重要指标
准确率
准确率 = 预测正确的样本数量 / 预测总的样本数量
精确率
精确率,英文叫做 precision,也叫作 P 值、查准率
精确率为预测正确的正例 (TP) 在所有预测为正例的样本中出现的概率,即分类正确的正样本个数占分类器判定为正样本的样本个数的比例
精确率 =TP(指马为马)/(TP(指马为马)+FP(指鹿为马))
召回率
召回率(recall,也叫作查全率)。召回率用官方的说法是预测正确的正例 (TP) 在原始的所有正例样本中出现的概率,即分类正确的正样本个数占真正的正样本个数的比例
召回率 =TP(指马为马)/(TP(指马为马)+FN(指马为鹿))
置信区间
置信区间估计是参数估算的一种,它是用一个区间来估计参数值,英文叫做 confidence interval 也就是一定信心下的区间。这个信心我们可以用前面讲到的准确率来去衡量,这个时候准确率有了一个新名字,叫做置信度。刚刚提到的 95%、100% 就是置信度,[0,750]和[600,630]就是置信区间
总结
准确率衡量整体准确情况
精确率规避指鹿为马
召回率是保证马都能认出来,避免指马为鹿
置信区间和置信度是用来表示识别出来的范围以及你在这个范围内的信心
生活和工作做决策的时候也是如此,现实世界里很少有“两好选其优”的机会,大部分都是“两害取其轻”。究竟哪个害处更大不可接受,我们要自己衡量好
3.2 趋势分析与回归
回归(Regression)是由英国生物学家弗朗西斯·高尔顿(FrancisGalton)提出来的。简单来讲,回归就是研究一个变量和另外一个变量的变化关系。其中一个变量我们叫做因变量,另外一个叫做自变量。多元的回归,就是研究一个因变量和多个自变量之间的关系
线性回归
线性回归对异常值影响非常敏感,往往一个异常值就把一个预测带歪了
所以我们在做分析的时候,经常会先通过聚类或者后续其他算法剔除这些异常点。当然,很多时候你并不确定这些点到底是异常值还是实际数据的规律,所以你需要非常有经验的数据分析师和算法专家来参与
数据挖掘难的不是算法,而是准确去掉异常点、找到影响因子这些算法之前的数据准备工作
逻辑回归
用于分类问题
多项式回归
在使用这种多项式回归的时候,最常见出现的问题就是过拟合和欠拟合
只能够推断出一个变量对另一个变量有依赖关系,但并不代表他们之间就会有因果关系,因果关系的确立必须是来自统计之外的一些业务依据
两个变量之间有回归逻辑,不代表着两个变量之间有因果逻辑
均值回归
身材高大的双亲,子女不一定高;身材矮小的双亲,孩子也不一定矮。高尔顿把这个现象叫做回归平凡,后来的统计学家把它叫做“均值回归”,意思就是实际发生的数据比我们理论上的预测更加接近平均值,整体趋势上会慢慢向一个平均值发展
对于任何优秀的人和团队来说,很多时候其实是运气、能力、时机多种因素来造就成功的。好的没你想得那么好,差的也没有你想得那么差,最终还是会回到平均水平
我们不要过分夸大优秀者的能力,也不要因为某几次失败就一蹶不振,过度小看自己。只要你不懈努力,就算你现在在谷底,也最终会到达平均值水平,甚至超过平均值
所以对我们自己的工作和生活来讲,用一颗平常心不断去提高自己的平均线水平才是正确选择
3.3 聚类算法
门纲目科属种
聚类算法输入就是一群杂乱无章的数据,输出是若干个小组,并且这些小组里面会把数据都分门别类。组内的对象相互之间是相似的(内聚),而不同组中的对象是不同的(分离)。组内的相似性越大,组间差别越大,聚类就越好
无监督学习
最常见的聚类算法 K-Means
1. 选大哥,找聚类中心的问题
2. 找小弟,解决距离表示的问题
3. 帮派会议,聚类收敛方法问题
在算法的世界里,我们可以有各种方法把人和人之间的属性和行为的差异数字化,然后把它们算成“欧几里得距离”或者“余弦相似度”,你现在只需要理解,最终任何事物的特征属性都可以变成类似距离的东西来计算就可以了
聚类是一个最基础的数据挖掘算法,也是最经久不衰的算法之一
注意事项:使用聚类算法的时候要先把一些异常点尽量剔除掉,或者单独把它们单独聚成一类。否则有一些很异常的数据就会影响我们聚类算法最终的准确性
【人类历史,是否类似于聚类的算法机制:选了大哥,然后聚集一帮小弟,然后一帮人中的中心,又成为新的大哥,不同的组织又不断分分合合,最终是在一个不断收敛的过程中。其中的距离表示,是文化、信仰、利益等的加权?】
3.4 分类算法
和聚类算法不同,分类算法是有训练数据集的,也就是我们在一开始就已知有一系列正确的数据和正确的分类结果,然后你需要经过不断地学习去找到其中的规律,然后做一些测试数据,最终在生产环境里去帮你去判断一些事物的分类
有监督学习
最常见的分类算法 C4.5——决策树
一个是用什么样的算法决定用哪个属性区来做分类,一个是怎么来计算不同属性的信息价值(信息熵)
分类算法的核心就是在于经验不断积累,不断迭代自己的规则,从而得到最好的答案
用分类算法的视角去看待“复盘”这件事
3.5 关联规则
引入
世间万物都有一定的联系,你应该听说过这样一个说法:一只南美洲热带雨林的蝴蝶扇动了几下翅膀,两周后美国得克萨斯州就形成了一个龙卷风
当你去美国沃尔玛超市,你会看到一个非常有趣的现象:货架上啤酒和尿布经常放在一起售卖。这两个看上去是完全不相关的东西,为什么会放到一起卖呢
基本概念
支持度(support):某个商品组合出现的次数与总次数之间的比例,也就是这个商品组合整体发生的概率怎样
置信度(confidence):购买了商品 A 后有多大概率购买商品 B,也就是在 A 发生的情况下 B 发生的概率是多少【条件概率】
提升度(lift):衡量商品 A 的出现对商品 B 的出现概率提升的程度
A和B提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)
提升度 >1,证明 A 和 B 的相关性很高,A 会带动 B 的售卖
提升度 =1,无相关性,相互没作用
提升度 <1,证明 A 对 B 有负相关,也就是这两个商品有排斥作用,买了 A 就不会买 B
如果支持度很小,证明大多数人不会将这种组合进行购买。如果置信度低,代表即使两个商品销量都不错,但他俩的关系也不紧密。我们想要做的是要找到置信度高且支持度高的场景
Apriori 算法(连坐)
如果一个组合是频繁组合,则它所有的非空子集也是频繁组合——连坐,一家子都是明星组合,任何跳出来两个人也都是明星组合
如果一个非空组合是非频繁组合,则其所有的父集也是非频繁组合——连坐,如果有一个人不是明星,他和谁组合都不会是明星组合
这种方法能够帮我们去掉很多没有必要测试的组合。这样我们再去分析余下组合的支持度和置信度,就可以得到我们的最终要的规则了
Apriori 算法的优点是可以产生相对较小的候选集,而它的缺点是要重复扫描数据库,且扫描的次数由最大频繁项目集中项目数决定,因此 Apriori 适用于最大频繁项目集相对较小的数据集中。后续的 FP-growth 算法修正了这些问题。当然用于关联规则挖掘算法还有很多,例如 setm、Eclat 等等
关联规则的挖掘过程
1. 找出所有频繁组合
2. 由频繁组合产生规则,从中提取置信度高的规则
关联规则挖掘的局限性
它需要有足够的数据才能发现这些规则,而在现实世界中想获得这些足够的数据可不容易。而且如果获取的数据出现偏差,关联规则会容易得到错误的结果,还可能生成太多无用的规则
所以在使用关联规则算法之前一定要通过业务的梳理,先规避掉有偏差的脏数据,选择最终真正对业务有用的规则
启示
其实我们要和关联算法一样,把和你关联关系最强的那些事情把握住,把关联不强的这些事情舍弃掉。我们的一生非常短暂,学完这节课,你可以试试用关联算法的思想,盘一盘你现在手里的资源,看看能不能用“连坐”算法把整体无关的事务、人脉做到断舍离,留下精力把和你最强的关联关系的事情做好
3.6 蒙特卡洛与拉斯维加斯
这两个算法的目标都是利用随机的方法来简化整体的算法过程,解决一些看上去我们没有办法通过正常算法解决的实际问题
准确来讲,蒙特卡罗算法和拉斯维加斯算法其实并不是两种算法,而是两类算法的统称
蒙特卡洛算法
蒙特卡罗算法原理其实很简单,就是每次计算都尽量尝试找更好的结果路径,但不保证是最好的结果路径。用这样寻找结果的方法,无论何时都会有结果出来,而且给的时间越多、尝试越多,最终会越近似最优解
举个例子,我们现在要用蒙特卡洛算法找到一个有 500 个苹果的筐里,最大的苹果。正常来讲,我们每次从筐中拿一个苹果 A, 然后下一次再随机从筐中拿出另一个苹果 B, 如果 B 比 A 大的话,就把 A 扔到另一个筐里,手里只拿着 B。这样如果我们拿了 500 次的话,最后留在手里的一定是最大的那个苹果
其实蒙特卡洛方法的理论基础就是我们前面讲过的大数定律。根据这个定律我们知道当随机事件发生的次数足够多时,发生的频率就会趋近于预期的概率
可以通过在正方形以及内切圆内进行随机打点,来计算圆周率
拉斯维加斯算法
每次计算都尝试找到最好的答案,但不保证这次计算就能找到最好的答案,尝试次数越多,越有机会找到最优解
举个例子,假如有一把锁,给我 100 把钥匙,其中只有 1 把钥匙可以开锁。于是我每次随机抽 1 把钥匙去试,打不开就再换 1 把。我尝试的次数越多,打开锁的机会就越大。但在打开之前,那些错的钥匙都是没有用的。这个挨个尝试换钥匙开锁的算法,就是拉斯维加斯算法
蒙特卡罗算法的基本思想是精益迭代,进行多次求解,最终让最后结果成为正确结果的可能性变高。而拉斯维加斯的算法是不断进行尝试,直到某次尝试结果让你自己满意,当然这个过程中也会一直产生你无法满意的随机值
算法应用场景
如果问题要求在有限时间和尝试次数内必须给出一个解,但不要求是最优解,那就用蒙特卡罗算法。反之,如果问题要求必须给出最优解,但对时间和尝试次数没有限制,那就用拉斯维加斯算法
把这两种算法对应到工作和生活中,对拉斯维加斯算法来说,有些事情我们是需要精益求精,无论花多少时间都得把这件事情做细致做准确,否则后果可能会非常严重;有些地方反而是需要蒙特卡洛算法,在事情有大概比较清晰的方案的时候,要快速决策,否则如果把时间耽误了,反而最后获得的结果会更糟
有一种创业方法叫做“精益”创业,其实核心思想就是和蒙特卡洛算法类似:在有限的时间和有限的资源情况下,不要一直思考或者规划找到“最优解”,而是通过快速迭代原型产品,通过用户的反馈不断地修正自己产品的方案,以达到在有限的时间和有限的资源情况下得到较为不错的结果
启发
蒙特卡洛算法是我们一直去努力,努力到自己满意了就可以停下来;而拉斯维加斯算法就要一直去努力,如果找不到最佳答案就誓不罢休
对于管理企业来说,我们要高维度思考,不要把我们的有限的时间和精力浪费在不必要的事情上,整体的做事思路是抓大放小。而重要的事情要用拉斯维加斯算法一通到底,任何细节都不要放过,确保随机事件的正确性
其他有趣见解
“完成比完美更重要。”(Done is better than perfect.)但完成之后不要忘记持续迭代,趋向完美
3.7 马尔科夫链
马尔可夫链专门研究在现实生活当中这一系列的事件,找到它们的内部运行规律,从而预测当这一系列事件达到平衡的时候,当前状态的下一步最可能发生的情况。这样我们就可以知道,当一件事情发生的时候,未来有多大可能会发生另一件事情
马尔可夫链因俄国数学家安德烈·马尔可夫得名,它的定义是:状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质,也就说下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关
有非常多著名的算法例子都使用了马尔可夫链。比如著名的谷歌创始人拉里·佩奇和谢尔盖·布林在 1998 年提出的谷歌搜索最核心的网页排序算法 PageRank 就是由马尔可夫链定义的,而这个算法造就了整个谷歌在搜索引擎里的霸主地位,至今为止你去谷歌搜索内容的准确率还是远高于其他搜索引擎的
启发
在我们工作和日常生活当中也有很多“马尔可夫链”:你现在的状态其实大部分都是由你上一个状态决定,没有人会走背字一直失败,也没有人能幸运到一直成功
你可以仔细想想,真正的失败,很多时候都是自己遇到失败后从此一蹶不振,走不出来失败的这个状态才造成的。“没有迈不过去的坎”这句话用马尔可夫链的视角来看,那就是现在自己的状态,只和自己上一个状态相关,和整体无关。所以吸取完教训后,调整好现在的心态,用现在去影响你的未来。
“Tomorrow is another day”——你的未来只取决于你当下在做什么,而不是过去你曾经做过什么,毕竟“明天,是新的一天”
3.8 协同过滤
历史介绍
在实际算法的应用过程当中,还有一种通过集体智慧来构成的复合算法,它可以寻找大量人群当中的行为数据模型规律,达成普通算法从单体上无法达到的效果。这种算法当中,最著名的一个算法就是协同过滤算法。
协同过滤算法源于 1992 年,最早被施乐公司发明并用于个性化推送的邮件系统(施乐公司就是那个发明了 GUI 界面,被乔布斯发现并创造了 MAC OS 的公司)。最早这个算法是让用户从几十种主题里面去选 3~5 种自己感兴趣的主题,然后通过协同过滤算法,施乐就根据不同的主题来筛选人群发送邮件,最终达到个性化邮件的目的
到 1994 年的时候,协同过滤算法开始引入集体智慧的概念,也就是用更多的人群和数据去获取相关的知识。它允许用户贡献自己的一些行为和反馈,从而创造一个比任何个人和组织更强大机制,自动给用户发送喜欢的文章
基于这个思路,施乐发明了著名的 GroupLens 系统。在这个系统里面,用户每读完一条新闻都会给一个评分,系统会根据这些评分来确定这些新闻还可以推送给谁。你看,今日头条的想法其实施乐在 1994 年就实现了
推荐系统需要同时具备速度快和准确度高两个特点(需要在用户打开网站几秒钟就要推荐所感兴趣的内容或者物品),而协同过滤算法正好满足了这两点要求,这也是这个算法经久不衰的原因。
典型场景
亚马逊的网络书店,你每次去选择一本你喜欢感兴趣的书籍,马上就会看到下面有关于“浏览此商品的顾客也同时浏览”的推荐
B 站会根据你自己的资料和类似的人浏览的视频来帮你找到可能感兴趣的视频,例如你喜欢二次元,你看到的推荐大部分都是二次元的视频;像我这样技术宅的,给我推荐的就都是各种技术类型的视频
你总是能看到你喜欢的产品、感兴趣的服务、喜欢的视频、想读的文章【信息茧房】
算法简述
基于用户的协同过滤算法(User-based Collaborative Filtering)
基于用户的协同过滤算法就是基于用户和用户之间的相似性,推荐你喜欢的东西,过滤你不喜欢的东西
优点
基于用户的协同过滤是找到用户之间的相似程度,所以能够反映一些小群体当中的物品的热门程度
它可以让用户发现一些惊喜。因为是根据类似用户的喜好来推荐,用户会发现自己对一些过去不知道的东西是感兴趣的
对一些新的有意思的物品比较友好。一旦某一个新的商品和电影被某一个社群的用户购买了,我们马上就可以推荐给他圈子当中的其他用户
缺点
如果你是一个新的用户,你可能不能马上找到和你类似的人,所以无法马上获得准确的推荐
对于推荐出来的结果虽然会给你带来惊喜,但是它也不太有解释性;系统不知道推荐给你的这个物品是什么,只知道你的相关的朋友都在使用
对于用户群比较大的公司,去计算用户之间的相似度的话,计算的耗费会比较高
基于物品的协同过滤算法(Item-based Collaborative Filtering)
根据用户群对于物品的购买或者评价发现物品和物品之间的相似程度,然后再根据具体用户历史使用的类似物品推荐给这个用户
比如华为的手机和华为手机壳经常被一起购买,这两个物品之间就存在比较强的相关性。那么当一个用户去新购买一个华为手机的时候,我们就会给他推荐一个华为的手机壳
优点
推荐更加针对用户自身。它反映了每个用户自己的兴趣的决策,根据你自己每买的一个商品来给你做推荐,而不是一类人给你做推荐
实时性比较高。用户每次点赞和购买商品都可以对其他购买此商品的用户推荐
推荐的结果很好解释。因为它们都是类似或者是关联度很高的商品,推荐结果显而易见
缺点
对于新加入进来的商品反馈速度比较慢,因为没有人购买也没有人互动,所以可能有一些很好的商品没有被很好地推荐;反过来没被推荐买的人更少,推荐的可能性更低,出现“产品死角”
不会给用户惊喜:大部分的物品其实都是关联度比较高,可以被想象到,惊喜程度不高
对于商品或物品更新情况比较快的领域比较不适用,比如新闻。因为你没有推荐到别人看,可能这个新闻就过期了
基于数据模型的协同过滤算法(Model-based Collaborative Filtering)
不一定非要通过协同过滤的公式来计算用户之间的距离,我们完全可以复用前面所学到的算法,先做出来模型,再进行相关的协同过滤
因为协同过滤只是考虑到了物品和用户之间的关系,没有考虑到用户所处的场景,所以推荐的内容可能就不太有效
弊病
这个算法就像是一个溺爱你的妈妈,永远会给你想要的东西,它并没有价值观,你会被“惯”得越来越没有节制,把时间全都花费到各种各样的短视频、小文章、和你钟爱的小圈子里,但最终你并没有什么拓展和收获
它不是一个严肃的爸爸,能告诉你你应该去学什么、哪些价值观是对的,这些其实是协同过滤算法无法做到的,只有通过人的选择和经验才能告诉你,你应该去学什么,而不是拼命满足你自己的某些爱好
启示
你自己的心态应该更加开放,不要一股脑地追主流,毕竟主流和大众的不一定是最适合自己的,我们的圈子当中应该有个性化的东西
我们的价值观也应该更加地开放,不能就沉浸在自己的小圈子里。因为协同过滤给我们的都是我们所喜欢的东西,它的价值观并不一定是最好的,我们应该开放心态去接受和尝试各种各样新的主流的非主流的物品,用我们自己的经历和人生去判断
我们更不要沉浸在某些短视频或者网站根据我们兴趣推荐的碎片化文章里。因为它给我们带来的不是推荐,而是去束缚、固化我们的思维,让我们成为这个时代里的“井底之蛙”。毕竟我们要主导自己的人生,而不是让算法去主导我们的人生
协同过滤是一个“人人为我,我为人人”的集体智慧算法
3.9 人工智能(深度学习初探)
历史
人类一直在寻求一套能够替代人类自身的机制
1950 年,图灵发表了《Computing Machinery and Intelligence》其中提到了仿真游戏,这就是广为人知的图灵测试。图灵测试是指如果有一台机器能够与人类展开对话,且不能被辨别出来是机器的身份,那么就称为这个机器具有智能
1956 年,马文·闵斯基、约翰·麦卡锡和另两位资深科学家克劳德·香农以及内森·罗彻斯特组织的达特茅斯会议里正式把人工智能提出来,自此 AI(Artificial Intelligence)的名字和任务得以确定
最近 10 年出现可以打败人类自身的算法,是得益于 2006 年加拿大多伦多大学教授、机器学习领域泰斗、神经网络之父—— Geoffrey Hinton 和他的学生 Ruslan Salakhutdinov 在顶尖学术刊物《科学》上发表了一篇文章,该文章提出了深层网络算法,并在 2012 年利用 CNN 算法碾压了过去数年的分类等机器学习算法,取得 AlexNet 第一名,引起了人工智能的新一轮潮流
深度学习算法简单来说就是模拟人的脑神经网络来制造一个和人特别接近的分类器。它可以识别人们说的话、识别具体的视频中的图像内容,最终可以去应对各种各样的情况
两个主流算法
它们都是模拟人脑的多个神经元多层次连接方式,通过大量反复的反馈和计算来实现最后效果
RNN(Recurrent Neural Network)循环神经网络
马尔可夫链只能够处理上一个状态到这个状态的选择,在一些事件的影响比较深远的时候它就无能为力了。而 RNN 算法可以针对更长的序列数据进行模拟和决策,例如我们去识别文章的内容或者去识别股票的价格的走势。之所以 RNN 能够处理这种序列的数据,因为它其中有一个“反馈环”,能够模拟人脑使得前面的输入也能影响到后面的输出,相当于在模拟人脑当中的记忆功能
RNN 就像是一个记性不好的人,只对最近的事情印象深,也就是说越靠后的数据影响比较大,而前期的数据影响很小
弥补算法
LSTM
GRU
广泛地用于现在的语音识别机器翻译,例如我们使用的 Siri
CNN(Convolutional Neural Network)卷积神经网络
能够分层次地提取各种各样的特征,从而能够将大量的数据(比如大量图片和视频)有效抽象成比较小的数据量,而且不影响最后训练的结果。这样既能够保证原来图片和这些视频的特征,也不会在识别的时候占用巨大的计算资源
CNN 其实模拟的就是人眼睛和头脑识别的原理
我们看到的世界其实是由各种各样的像素组成,而我们眼睛不会识别这些像素,而是会看到各种各样物体的边界,然后我们大脑会自觉把它们变成一些部件,把这些部件识别成到底是人脸还是物体。最后对人脸或者物体再调取记忆,识别出来这个人或物
基本原理
1. 卷积层神经网络,主要作用是保留图片的特征
2. 池化层神经网络,主要作用是把数据降维,可以有效避免过拟合
3. 全连接层神经网络,根据不同任务输出我们想要的结果
CNN 经常会被用来做我们的图片分类、检索视频的识别、目标的分割与识别
实例AlphaGo
算法解决问题的三步走
第 1 步,把问题抽象成计算机可以理解的问题
我们先要让计算机理解围棋
产生数据
第 2 步,设计和选择整体的算法组合和方案
基于数据构造算法训练模型
利用CNN 算法构造了快速感知“脑”、深度模仿“脑”、 自学成长“脑”以及全局分析“脑”四个大脑,还在这之上使用了蒙特卡洛树来优化整体的下棋策略
四个脑
快速感知“脑”:Rollout Policy ,用于快速的感知围棋的盘面,获取较优的下棋选择,类似于人观察盘面获得的第一反应,准确度不高
深度模仿“脑”:SL(Supervised Learning) Policy Network ,通过人类 6-9 段高手的棋局来进行模仿学习得到的脑区。这个深度模仿“脑”能够根据盘面产生类似人类棋手的走法
自学成长“脑”:RL (Reinforcement Learning)Policy Network 以深度模仿“脑”为基础,通过不断的与之前的“自己”训练提高下棋的水平
全局分析“脑”:Value Network,利用自学成长“脑”学习对整个盘面的赢面判断,实现从全局分析整个棋局
第 3 步,不断训练和调优
AlphaGo 团队的科学家们选择了网络对战,先后在 KGS、Crazy Stone、Zen 等网络平台上找高手对战,不停学习和迭代模型。在这几个平台都稳居第一之后,开始线下挑战人类的围棋冠军,这就有了 AlphaGo 和李世石的成名之战
当我们遇到类似像围棋这种非常复杂的博弈类问题的时候,我们其实很难用单一的某种算法来解决。我们会做一个算法系统,发挥每一段不同算法的优势,最终得到我们想要的答案
阿尔法狗最终的形态是由 4 个深度学习算法的大脑,加上一个蒙特卡罗树搜索的算法组成的
最新案例
模拟人玩游戏
王者荣耀
自动驾驶
画水墨画
医疗探索
总结
尽管人工智能算法可以在很多有规则的竞争里超过人类,甚至现在很多人对人类十分悲观,觉得总有一天人工智能会像电影里那样奴役人类,但我一直都不这样认为。因为人工智能算法是没有灵魂的,因为它所有的计算其实本质上还是一个分类模拟器
人工智能算法是一个有监督的学习算法,无论通过什么样的方式去模拟,它都无法通过一个有规则的算法去适配当今无规则的现实世界,更无法去模拟人们的感情、灵感和创造力。所以我们不要“机械”地活着,要往生活里多注入一些热爱和创新才好。数据给你一双看透本质的眼睛,算法让你看清数据背后现实世界的规律
0 条评论
下一页