数据科学知识体系
2021-04-15 18:07:20 15 举报
AI智能生成
为你推荐
查看更多
1
作者其他创作
大纲/内容
数据科学知识体系
业务知识
业务思维
5W2H
逻辑树分析
PEST
SWOT
...
业务模型
RFM
AARRR
6R
PRAPA
AIDMA
AISAS
行业指标
互联网行业
会员指标
激活会员数
会员营销指标
可营销会员数
营销费用
营销收入
用券会员比例
用券金额比例
用券订单比例
营销费率
每注册/订单/会员收入
每注册/订单/会员成本
会员整体指标
注册会员数
购买会员数
会员活跃指标
整体会员活跃度
每日/每周/每月活跃用户数
会员价值度指标
会员价值分群
复购率
消费频次
最近一次购买时间
最近一次购买金额
会员终生价值指标
会员生命周期价值(CLV)
会员生命周期订单量
会员生命周期平均订单价值
会员生命周期转化率
会员生命周期剩余价值
会员异动指标
会员流失率
会员异动比
商品指标
销售指标
订单量/商品销售量
订单金额/商品销售额
每订单金额/客单价/件单价
订单转化率
支付转化率
有效订单量/有效订单金额/有效商品销售量/有效商品销售额
订单有效率/废单率
毛利/毛利率
促销活动指标
每订单成本/每有效订单成本
每优惠券收益/每积分兑换收益
活动直接收入/活动间接收入
活动收入贡献
活动拉升比例
供应链指标
库存可用天数
库存量
库龄
滞销金额
缺货率
残次数量/残次金额/残次占比
库存周转天数
流量指标
站外推广营销指标
曝光量
点击量
点击率
每千人成本CPM
按天展示成本CPD
每次点击成本CPC
每次行动付费CPA
每UV成本
每访问成本
投资回报率ROI
每点击/UV/访问/目标转化收益
网站流量数量指标
到达率
UV
PV
新访问占比
实例数
网站流量质量指标
访问深度
停留时间
跳出/跳出率
退出/退出率
产品页转化率
加入购物车转化率
结算转化率
下载转化率
注册转化率
购物车内转化率
内容指标
内容类指标
原创度
SEO类指标
收录数量/比例
关键字排名
点击量和点击率
内容互动指标
收藏量
点赞量
评论量
传播量/传播率
二次传播率
游戏行业
用户数据指标
付费玩家数量
新增玩家数量
日活跃用户DAU
周活跃用户WAU
月活跃用户MAU
单个用户生命周期价值LTV
留存率
用户行为指标
次日留存率
7日留存率
30日留存率
平均游戏时长
平均游戏次数
每日流失数
每日流失率
每日回流
付费指标
每活跃玩家的平均收入APRU
每付费玩家的平均收入ARPPU
付费率
点击通过率CTR
转化率CVR
每次点击费用CPC
每次实际销售费用CPS
每次安装费用CPI
每次有效行动费用CPA
房地产行业
市场感知
市场覆盖率
相对市场占有率
竞品客群重叠率
客流外溢指数
商圈辐射力
商业辐射力
潜在客户
客户获取
日到访客流量
日均到访客流量
新客户数量
老客户数量
客流指数
客群财富力指数
客群线上兴趣偏好指数
客户活跃
分时到访客流量
客流高峰时间
高峰客流量
场内逗留时间
进店率
客流密度
获客力指数
客户营销
到访频次
到访间隔
到访稳定度
新客转化率
会员转化率
活跃客群
沉默客群
激活客群
流失客群
客户流失率
客户运营
成交单数
消费人次
人均消费单数
提袋率
销售额
客单价
人均销售额
客流黑洞指数
销售坪效
租金坪效
租金销售比
客户传播
楼层转化率
品牌关联支持度
品牌关联可信度
品牌关联提升度
品牌客流连带指数
推广活动客流带动率
推广活动消费带动率
金融行业
覆盖率
活跃率
推广渠道数
广告展示量
广告点击量
广告点击率
单客展现/点击成本
线下客流量
新增用户数
新增用户单客成本
用户新增转化率
注册用户数
注册用户成本
累计注册用户数
实名认证用户数
累计实名认证用户数
绑卡用户数
绑卡转化率
累计绑卡用户数
日活DAU
月活MAU
登录次数
登录客户数
活跃新用户占比
活跃老用户占比
日均使用时长
日活跃率
留存
逐日留存率
逐月留存率
产品购买转化率
交易错误率
错误率
续投率
复投率
复投人数
收入
新客户成交总额
老用户成交总额
新客客单价
老客户成交额(线下)
老客户客单价
总成交金额
资金转出量
资金转出率
资金转出人数
平均订单金额
首投人数
年化投资额
净流入
首投投资额
复投投资额
传播用户数
传播次数
传递率
被邀请注册用户数
被邀请交易用户数
被邀请交易用户首投金额
被邀请者留存
被邀请者人均投资金额
数学能力
统计学
概论
基本概念
数据
数据集
个体
样本
总体
变量
观测值
测量尺度
名义尺度
顺序尺度
间隔尺度
比率尺度
数据类型
分类型数据
数量型数据
统计学的结构
描述性统计
推断性统计
图表法
分类型数据的汇总
条形图
饼图
数量型数据的汇总
频数分布图/相对频数分布图
直方图
两个变量的汇总
交叉分组表
散点图
复合条形图
数值法
位置的度量
平均数
加权平均数
几何平均数
中位数
众数
百分位数
四分位数
变异程度的度量
极差
方差
标准差
两变量关系的度量
协方差
相关系数
抽样和抽样分布
抽样总体
抽样框
参数
抽样
无放回抽样
有放回抽样
点估计
样本统计量
点估计量
点估计值
抽样分布
中心极限定理
x平均数的抽样分布
p平均数的抽样分布
点估计的性质
无偏性
有效性
一致性
其它抽样方法
分层随机抽样
整群抽样
系统抽样
方便抽样
判断抽样
区间估计
总体均值的区间估计:标准差已知
边际误差和区间估计
置信水平
置信系数
置信区间
总体均值的区间估计:标准差未知
t分布
自由度
总体均值区间估计的样本容量
总体比率的区间估计
总体比率区间估计的样本容量
假设检验
假设检验的原理
假设与假设检验
假设检验中的小概率原理
假设检验中的两类错误
单侧检验与双侧检验
假设检验的步骤
平均数的显著性检验
总体正态分布、总体方差已知
总体正态分布、总体方差未知
总体非正态分布
平均数差异的显著性检验
两个总体都是正态分布、两个总体方差都已知
两个总体都是正态分布、两个总体的方差都未知
两个总体非正态分布
方差的差异检验
样本方差与总体方差的差异检验
两个样本方差之间的差异显著性检验
相关系数的显著性检验
极差相关系数的显著性检验
其它类型相关系数的显著性检验
相关系数差异的显著性检验
比率的显著性检验
比率差异的显著性检验
实验假设与方差分析
因子
单因子实验
完全随机化设计
方差分析的假定
方差分析和完全随机化实验设计
总体方差的处理间估计
总体方差的处理内估计
方差估计量的比较:F检验
多重比较方法
Fisher的LSD方法
第一类错误概率
随机化区组设计
析因实验
交互效应
简单线性回归
简单线性回归模型
回归模型和回归方程
估计的回归方程
最小二乘法
判定系数
总平方和
回归平方和
误差平方和
模型的假定
显著性检验
方差的估计
t检验
beta1的置信区间
F检验
残差分析:证实模型假定
残差分析:异常值和有影响力的观测值
多元回归
多元回归模型
估计的多元回归方程
多元判定系数
多重共线性
分类自变量
解释参数
Logistic回归
Logistic回归方程
估计Logistic回归方程
解释Logistic回归方程
对数机会比变换
非参数方法
符号检验
总体中位数假设检验
匹配样本的假设检验
威尔科克森符号检验
曼-惠特尼-威尔科克森检验
克鲁斯卡尔-沃利斯检验
秩相关
机器学习
监督学习
感知机
感知机模型
感知机学习策略
数据集的线性可分性
感知机学习算法
感知机学习算法的原始形式
算法的收敛性
感知机学习算法的对偶形式
k近邻法
k近邻算法
k近邻模型
模型
距离度量
k值的选择
分类决策规则
k近邻算法的实现:kd树
构造kd树
搜索kd树
朴素贝叶斯法
朴素贝叶斯的学习与分类
基本方法
后验概率最大化
参数估计
极大似然估计
学习与分类算法
贝叶斯估计
决策树
决策树模型与学习
决策树模型
决策树与if-then规则
决策树与条件概率分布
决策树学习
特征选择
特征选择问题
信息增益
信息增益比
决策树的生成
ID3算法
C4.5的生成算法
剪枝
CART算法
CART生成
CART剪枝
逻辑斯谛回归与最大熵模型
逻辑斯谛回归模型
逻辑斯谛分布
二项逻辑斯谛回归模型
模型参数估计
多项逻辑斯谛回归
最大熵模型
最大熵原理
最大熵模型定义
最大熵模型的学习
模型学习的最优化算法
改进的迭代尺度法
拟牛顿法
支持向量机
线性可分支持向量机与硬间隔最大化
线性可分支持向量机
函数间隔和几何间隔
间隔最大化
学习的对偶算法
线性可分支持向量机与软间隔最大化
线性支持向量机
支持向量
合页损失函数
非线性支持向量机与核函数
核技巧
正定核
常用核函数
非线性支持向量分类机
序列最小优化算法
两个变量二次规划的求解方法
变量的选择方法
SMO算法
提升方法
提升算法AdaBoost算法
提升方法的基本思路
AdaBoost算法
AdaBoost的例子
AdaBoost算法的训练误差分析
AdaBoost算法的解释
前向分步算法
前向分步算法与AdaBoost
提升树
提升树模型
提升树算法
梯度提升
EM算法及其推广
EM算法的引入
EM算法
EM算法的导出
EM算法在无监督学习中的应用
EM算法的收敛性
EM算法在高斯混合模型学习中的应用
高斯混合模型
高斯混合模型参数估计的EM算法
EM算法的推广
F函数的极大-极大算法
GEM算法
隐马尔可夫模型
隐马尔可夫模型的定义
观测序列的生成过程
隐马尔可夫模型的3个基本问题
概率计算算法
直接计算法
前向算法
后向算法
一些概率与期望值的计算
学习算法
监督学习方法
Baum-Welch算法
Baum-Welch模型参数估计公式
预测算法
近似算法
维特比算法
条件随机场
概率无向图模型
模型定义
概率无向图模型的因子分解
条件随机场的定义与形式
条件随机场的定义
条件随机场的参数化形式
条件随机场的简化形式
条件随机场的矩阵形式
条件随机场的概率计算问题
前向-后向算法
概率计算
期望值的计算
条件随机场的学习算法
条件随机场的预测算法
无监督学习
聚类算法
聚类的基本概念
相似度或距离
类或簇
类与类之间的距离
层次聚类
k均值聚类
策略
算法
算法特性
奇异值分解
奇异值分解的性质与定义
定义与定理
紧奇异值分解与截断奇异值分解
几何解释
奇异值分解的计算
奇异值分解与矩阵近似
弗洛贝尼乌斯范数
矩阵的最优近似
矩阵的外积展开式
主成分分析
总体主成分分析
基本思想
定义和导出
主要性质
主成分的个数
规范化变量的总体主成分
样本主成分分析
样本成分的定义和性质
相关矩阵的特征值分解法
数据矩阵的奇异值分解算法
潜在语义分析
单词向量空间与话题向量空间
单词向量空间
话题向量空间
潜在语义分析算法
矩阵奇异值分解算法
非负矩阵分解算法
非负矩阵分解
潜在语义分析模型
非负矩阵分解的形式化
算法原理
概率潜在语义分析
概率潜在语义分析模型
基本想法
生成模型
共现模型
模型性质
概率潜在语义分析算法
马尔可夫链蒙特卡罗法
蒙特卡罗法
随机抽样
数学期望估计
积分计算
马尔可夫链
基本定义
离散状态马尔可夫链
连续状态马尔可夫链
马尔可夫链的性质
基本步骤
马尔可夫链蒙特卡罗法与统计学习
Metropolis-Hastings算法
基本原理
Metropolis-Hastings算法模型
单分量Metropolis-Hastings算法
吉布斯抽样
吉布斯抽样算法
抽样计算
潜在狄利克雷分配
狄利克雷分配
分布定义
共轭先验
潜在狄利克雷分配模型
概率图模型
随机变量序列的可交换性
概率公式
LDA的吉布斯抽样算法
算法的主要部分
算法的后处理
算法模型
LDA的变分EM算法
变分推理
变分EM算法
算法推导
算法总结
PageRank算法
PageRank的定义
有向图和随机游走模型
PageRank的基本定义
PageRank的一般定义
PageRank的计算
迭代算法
幂法
代数算法
线性代数
行列式
二阶与三阶行列式
全排列及其逆序数
n阶行列式的定义
对换
行列式的性质
行列式按行(列)展开
克拉默法则
矩阵及其运算
矩阵
矩阵的运算
逆矩阵
矩阵分块法
矩阵的初等变换与线性方程组
矩阵的初等变换
矩阵的秩
线性方程组的解
向量组的线性相关性
向量组及其线性组合
向量组的秩
线性方程组的解的结构
向量空间
相似矩阵及二次型
向量的内积、长度及正交性
方阵的特征值与特征向量
相似矩阵
对称矩阵的对角化
二次型及其标准形
用配方法化二次型成标准形
正定二次型
线性空间与线性变换
线性空间的定义与性质
维数、基与坐标
基变换与坐标变换
线性变换
线性变换的矩阵表达式
概率论
随机事件与概率
随机事件
随机试验与样本空间
事件间的关系和运算
事件的概率
概率的统计定义及性质
概率的古典定义
几何概率
概率的公理化定义
概率的加法公式
条件概率与乘法公式
条件概率
概率的乘法公式
全概率公式与贝叶斯公式
全概率公式
贝叶斯公式
事件的独立性与贝努里概型
事件的独立性
贝努里概型
随机变量及其分布
随机变量的概念
离散型随机变量
分布列的概念与性质
几种常见的离散型分布
连续型随机变量
连续型随机变量的概率密度函数
几种常见的连续型分布
分布函数
分布函数的概念
分布函数的性质
正态分布的概率计算
随机变量函数的分布
离散型随机变量的函数分布
连续型随机变量的函数分布
随机向量
随机向量的联合分布
联合分布函数
二维离散型随机向量及其联合分布列
二维连续型随机向量及其联合密度函数
边缘分布与随机变量的独立性
边缘分布
随机变量的独立性
两个随机变量的函数分布
离散型情形的举例
连续型情形的举例
随机变量的数字特征
数学期望
数学期望的概念
随机变量函数的数学期望
数学期望的性质
方差的概念
方差的性质
矩阵、协方差和相关系数
矩
协方差和相关系数
大数定律与中心极限定理
大数定律
切比雪夫不等式
微积分
微积分的概念
函数与极限
定积分
微商与微分
微积分基本定理
微积分的运算
微分法
积分法
微积分的一些应用
面积、体积、弧长
曲线的描绘
泰勒展开与极值问题
常微分方程
一阶微分方程
二阶微分方程
矢量代数与空间解析几何
空间直角坐标与矢量
矢量的乘积
平面与直线
二次曲面
坐标变换
重积分与偏微商
重积分
偏微商
雅各比行列式、面积元素与体积元素
线、面积分与外微分形式
数量场与矢量场
曲线积分
曲面积分
Stokes公式
全微分与线积分
外微分形式
多变量微积分的一些应用
泰勒展开与极限问题
物理上的应用举例
epsilon-delta语言
数列极限的epsilon-delta语言
函数连续性的epsilon-delta语言
定积分的存在
无穷级数与无穷积分
数项级数
函数顶级数
幂级数与泰勒级数
无穷积分与含参变量积分
傅立叶级数与傅立叶积分
傅立叶级数
傅立叶积分
编程能力
Python
numpy
numpy的基本概念
是什么
作用
导入方法
ndarray
创建ndarray
ndarray的数据类型
ndarray的形状
数组的运算
切片索引
布尔型索引
花式索引
转置
通用函数
数据统计方法
布尔型数据测试
排序
数组的集合运算
文件输入输出
随机数生成
高级应用
数组重塑
数组的合并和拆分
元素的重复操作
花式索引的等价函数
广播模型
ufunc高级应用
pandas
pandas基本概念
数据结构
Series
DataFrame
重新索引
删除行/列
索引取值
算术运算
元素级数组方法
排序与排名
描述和汇总统计
相关系数与协方差
唯一值、值计算、成员资格方法
处理缺失值
层次化索引
重排分级排序
将列转换为行索引
matplotlib
生成画布
生成子图
设置坐标轴刻度
设置坐标轴标签
设置标题
设置网格
设置图例
展示图形
图形保存
绘制折线图
绘制直方图
绘制柱状图
绘制散点图
其它第三方库
seaborn
关系型图表(Relational plots)
分布型图表(Distribution plots)
分类型图表(Categorical plots)
回归类型图表(Regression plots)
矩阵类型图表(Matrix plots)
多图网格(Multi-plot grids)
主题设置(Themeing)
调色板(Color palettes)
面板部件(Palette widgets)
实用函数(Utility functions)
pyecharts
全局配置项
InitOpts
ToolboxOpts
系统配置项
ItemStyleOpts
TextStyleOpts
图表类型
基本图表
Liquid(水球图)
Pie(饼图)
直角坐标系图表
Bar(柱状图/条形图)
Boxplot(箱型图)
HeatMap(热力图)
树型图表
Tree(树图)
TreeMap(矩形树图)
地理图表
Geo(地理坐标系)
Map(地图)
BMap(百度地图)
3D图表
Bar3D(3D柱状图)
Line3D(3D折线图)
组合图表
Grid(并行多图)
Page(顺序多图)
warnings
功能:禁止jupyter中出现警告
用法:warnings.filterwarnings('ignore')
statsmodels
sklearn
SQL
了解SQL
数据库基础
什么是SQL
检索数据
Select语句
检索单个列
检索多个列
检索所有列
排序检索数据
排序数据
按多个列排序
按列位置排序
指定排序方向
过滤数据
使用Where子句
Where子句操作符
高级数据过滤
组合Where子句
IN操作符
NOT操作符
用通配符进行过滤
LIKE操作符
使用通配符的技巧
创建计算字段
计算字段
拼接字段
执行算术计算
使用数据处理函数
函数
使用函数
汇总数据
聚集函数
聚集不同值
组合聚集函数
分组数据
数据分组
创建分组
过滤分组
分组和排序
Select子句的顺序
使用子查询
子查询
利用子查询进行过滤
作为计算字段使用子查询
联结表
联结
创建联结
创建高级联结
使用表别名
使用不同类型的联结
使用带聚集函数的联结
使用联结和联结条件
组合查询
创建组合查询
插入数据
从一个表复制到另一个表
更新和删除数据
更新数据
更新和删除的指导原则
创建和操纵表
创建表
更新表
删除表
重命名表
使用视图
视图
创建视图
使用存储过程
存储过程
为什么要使用存储过程
执行存储过程
创建存储过程
管理事务处理
事务处理
控制事务处理
使用游标
游标
了解高级SQL特性
约束
索引
子主题
数据库安全
收藏
0 条评论
回复 删除
下一页