操作层面的数据科学
2023-09-08 10:56:00 0 举报
AI智能生成
数据科学
作者其他创作
大纲/内容
了解数据科学的目的
对于企业而言
生产力提升4~6%
新发现,协助决策
大规模决策
对于个人而言
明晰数据项目的价值
如果有上级部门通过大数据管理你的部门,你最好知道这个项目有可能存在的漏洞
数据思维:不需要你会数据挖掘,但最好有“数据思维”——能够与数据部门互动,可以发现机会和威胁
数据科学家负责挖掘数据,但公司业务部门需要做决策。如果没有数据思维,那个决策一般是错误的。
在2018年以前,公司将有150万的,拥有是用数据技术的经理和分析师的短缺
提及案例
金融
信用评级
不正常交易发现(第一次海外消费后会接到中信银行核实的电话
Signet Bank的不良账户预测
使用Profiling方法,发现异常的信用卡交易
推荐
亚马逊类似书籍推荐
豆瓣兴趣推荐
RTB
是用Link Prediction计算推荐你可能认识的人
任务
分析师
创造力、商业知识和常识
数据科学家
数据科学家给出以往的案例,企业按菜单选择,并进行创新
数据挖掘流程
理解商业
理解数据
数据准备
training data
hold-out data
建立模型
评价
部署
工具
数据的选择
数据纯度
Information Gain:通过计算数据的熵(entropy)来计算一个独立变量对于我们的”贡献“
可能性计算
Tree induction
Parameter Modelign
选择模型并界定参数,所选参数能最大配合模型与数据的匹配
避免overfitting
Learning Curve
比较两种model的图
分支主题
评估工具
准确率:真确决策除以总决策
预计收益计算:在目前的精准度情况下,企业获得的收益是多少
Baseline:如果不用数据挖掘,能够保证的收益是多少?
增加数据投入:如果增加数据投入,可以获得更好的收益,则需要增加数据投入
表现视觉化
Profit Curves横坐标是instance数量,纵坐标是精准度,用于比较不同模型
分支主题
Receiver of Characteristics (ROC):表现不同模型的true positive和false positive的比例
分支主题
Cumulative Response:用于比较各个模型和不用模型
分支主题
Lift Curve:将cumulative response按扁后,更加直观
分支主题
Profit Curve,结合利润的直线
分支主题
Naive Bayes:根据不同的新的evidence,重算一个结论的可能性。Facebook like和智商的关系。Lift系数是根据Bayes法则算出来的只用相乘就可以生效的系数。
分支主题
模型
找到独立变量对于目标变量的影响
Classification/probability estimation
Tree Induction
喜欢狗的人——喜欢狗的男人——喜欢狗并且已结婚的男人——喜欢狗并且已结婚并且收入大于50k的男人
树的分叉
分支主题
每一次“分叉”的时候,都要计算数据纯度和信息贡献,如果够,就分;如果到下一步,出现了“死胡同”,可以车回来,重新分。
有时候,分到第100个节点的时候,会出现sweet point,但之后就会overfit了
这个非常好理解和执行,但是比regression(下面的依靠单一的数学公式来分类)更加耗费人力。初次接触数据挖掘的客户很愿意使用tree induction
Overfitting
Sweet point
Regression
直线方程回归
直线方程,就是用一个函数的直线,将在坐标轴里面的instance分类成为两类。由于直线方程对于计算机十分简单直接,所以是数据挖掘的驮马,最朴素耐劳。
就像春晚里面,郭达讲,一个男的炒红豆和绿豆,倒到盘子里面,红豆和绿豆都分开了。不是因为只有两个豆,而是这个方程“超平面”将所有的豆分开了。
y=ax+b
其中的a和b都是参数,通过调整a和b,获得更能分开instance的”超平面”
对数函数回归Logistic regression
对数函数的统计方法,可以直接根据一组体重和糖尿病的数据,计算出某一个体重患有糖尿病的probability
SVM
类似直线方程,但是可以向坐标轴的两边“扩张”,通过这样做,可以将这条直线“卡”得更加结实
这个是很高深的一个概念,如果你说起来,最懂行的人也会怕的。
SVM有一个kernel tactic,可以创造出具有魔力的“超平面”。面对二维的坐标轴,使用三位的假设,让所有的instance处于三维空间中,然后通过一个“超平面”将两部分泾渭分明地切开。
当然,SVM可以是直线,可以是曲线,可以是毫无规律的曲线,也可以是平面,这就是它的魔力
SVM的边缘
分支主题
Similarity matching
计算instance间距离的方法:欧几里得定理
”最近的邻居“法:根据”邻居“的行为,判断你的行为,在美国总统选举中曾经使用。不是地理距离,而是根据选择的参数,决定你们的距离。
K-NN:依据K个参数,决定你最近的邻居的计算方法
K越小,越容易overfit;越大越容易精准度低
分支主题
Clustering
归簇时,相邻的instance并不是按数值的距离,而是按分享特征的个数
Dendrogram,和思维导图十分像
分支主题
Clustering around Centroids:根据与小核心的距离,决定不同的分簇
Co-occurence
Support是二者同时发生的可能性,Strength是买了A以后,有多大的可能买B,Lift是买A对于买B的拉升
《千与千寻》对《哈尔的移动城堡》的拉升很大
Profiling/behavior description
Link prediciton
Causal modeling
企业与大数据
企业应该怎么做?
让管理人员建立大数据思维
能够创想到数据战略的机会
有能力向数据团队提供资源
有能力投资数据来源和实验
创造大数据文化,让数据相关的工作人员能安心工作
尊重大数据文化是以上三点的基础
前沿的数据科学家会想发表结果,企业害怕透露信息。企业如果允许科学家发表结果,尖端人才就更希望留在企业。很矛盾。
出众数据管理人员特质(企业管理人员)
能预测业务需求,和数据人员一起出主意
能翻译行话,也能把企业的话翻译成行话
理解其他软件(比如CRM系统、折扣系统和售后系统),保证数据挖掘结果没有断档
选对人,能通过直觉选出能够做出成绩的团队和项目。当然,选择企业内部数据管理人员也有同样的任务。
对于公司文化的认同。
衡量数据项提案
一、业务问题是否明晰?数据能否解决这个问题?
二、我们能否评价这个解决方案?
三、在大量投入资金之前,我们能否知晓成功的可能性?
四、有没有training data?要不要买?
企业的数据成熟度
不成熟:模拟其他企业、临时项目。难以决策。
不一定不成熟的企业的项目就无法获得成功。决定成功的是选对负责人。
中等成熟:主动测试和评估,之后进阶。
成熟公司:实验、优化、整合
0 条评论
下一页