数据分析学习图谱
2023-05-15 20:40:52 0 举报
AI智能生成
数据分析学习图谱包括七个方面,即分析工具、可视化、机器学习、统计学、业务知识、软技能、进阶知识,每部分涉及知识体系、学习资源、工具平台等,适合数据分析、商业分析、经营分析、业务分析、数据科学相关从业者。
作者其他创作
大纲/内容
分析工具
Office
Excel
知识体系
基本操作
开始
插入
数据
审阅
视图
常用函数
常用的10个函数
sum
if
vlookup
lookup
find
date
days
choose
index
match
查找和引用函数
vlookup
hlookup
lookup
index
match
offset
indirect
choose
column
columns
row
rows
getpivotdata
transpose
逻辑函数
if
iferror
and
or
not
统计函数
max
min
sum
sumif
sumifs
count
counta
countif
countifs
countblank
average
averagea
averageif
averageifs
rank
frequency
product
sumproduct
isblank
large
small
stdev.s
stdev.p
substotal
数学函数
abs
ln
log
log10
sqrt
mod
power
int
rand
randbetween
round
ceiling
floor
floor.math
日期和时间函数
date
datedif
days
year
month
day
hour
minute
second
today
now
weekday
weeknum
edate
eomonth
workday
networkdays
networkdays.intl
文本函数
len
lenb
exact
left/leftb
right/rightb
mid/midb
find/findb(区分大小写)
search/searchb(不区分大小写,模糊)
replace/replaceb(位置)
substitute(内容)
trim
rept
concat
lower
upper
proper
textjoin
text
fixed
信息函数
isnumber
istext
islogical
isref
isblank
isodd
iseven
iserr
iserror
isna
type
财务函数
工程函数
数据透视表
可视化图表
录制宏与VBA
学习资源
方方格子社区
Excel Home
懒人Excel
W3CSchoool
微软官网Excel
插件
EasyCharts
方方格子
Excel必备工具箱
慧办公
Excel易用宝
Kutools
软件
微软的Excel
金山的WPS
PPT
知识体系
开始
插入
切换
动画
审阅
视图
放映
设计
素材
字体
图标
图片
音乐
视频
排版
配色
审美
模板
学习资源
PPT模板&教程
微软官网PPT
51PPT模版
优品PPT模版
比格PPT
站长素材
Officeplus
高清图片
The Stocks图片导航
搜图导航
跨境卖家导航amz123
Pixabay
Unsplash
Pexels
Stocksnap
VisualHunt
Photock
Pngimg
图标
阿里iconfont
字节IconPark
FreeImages
Flaticon
IconFinder
Icons8
插件
Think-cell
islide
PPT美化大师
OneKeyTools
PA口袋动画
英豪工具箱lvyhTools
软件
微软的PPT
金山的WPS
Word
知识体系
开始
插入
布局
引用
审阅
视图
章节
设计
学习资源
微软官网Word
人大毕业论文排版
页面
文本
图表
目录
参考文献
插件
慧办公
Word必备工具箱
Mathtype
Emoji Keyboard
grammarly
Office Tabs
软件
微软的Word
金山的WPS
Visio
MySQL
知识体系
基础知识
数据库
创建数据库
create database
删除数据库
drop database
使用数据库
use database
修改数据库
alter database
数据表
创建数据表
create table
auto_increment
删除数据表
drop table
truncate table
查看数据表
desc/describe table
show create table
修改数据表
alter table
add column
drop column
change column
alter column
modify column
rename to
数据行
插入数据行
insert into table values
insert into table select
删除数据行
delete from table
查询数据行
select * from table
更新数据行
update table set k=v
数据类型
数值类型
tinyint
smallint
mediumint
int
bigint
float
double
decimal
日期时间
date
time
datetime
timestamp
year
字符串
char
varchar
tinytext
mediumtext
text
longtext
tinyblob
mediumblob
blob
longblob
运算符
算术运算符
+
-
*
/
%
比较运算符
=
!=
<>
>
>=
<
<=
<=>
between
not between
in
not in
exists
not exists
is null
is not null
any
all
like
rlike
regrep
逻辑运算符
and
or
not
xor
位运算符
&
|
!
^
<<
>>
约束
not null
unique
primary key
foreign key
check
default
索引
索引类型
普通索引
唯一索引
主键索引
组合索引
全文索引
创建索引
create index
alter table add
删除索引
drop index
alter table drop
查看索引
show index from table
修改索引
先drop再add
临时表
视图
存储过程
游标
触发器
创建触发器
删除触发器
使用触发器
insert
delete
update
事务
begin
rollback
commit
savepoint
rollback to
release
安全管理
全文搜索
查询语句
select
from
where
group by
having
with rollup
order by
asc
desc
limit
limit x,y
limit y offset x
distinct
as
join
inner join
left join
right join
full outer join
cross join
like
%
_
regexp正则表达式
^
$
\
.
[...]
[^...]
|
*
+
?
{n}
{n,}
{n,m}
()
转义符
\w
\W
\s
\S
\d
\D
\b
\B
不可见字符
\n
\t
\r
\v
\f
with as
公共表表达式CTE
基础CTE
递归CTE
集合运算
union
union all
intersect
except
minus
常用函数
聚合函数
count
sum
avg
max
min
窗口函数
function() over(partition by order by)
range/rows
precending/following
between...and...
unbounded
row_number
rank
dense_rank
lag
lead
first_value
last_value
nth_value
ntile
cume_dist
percent_rank
聚合函数
字符函数
concat
concat_ws
length
left
right
mid/substring/substr
replace
trim
ltrim
rtrim
format
find_in_set
locate
upper/ucase
lower/lcase
lpad
rpad
repeat
reverse
space
strcmp
日期和时间函数
curdate/current_date
curtime/current_time
now/sysdate/current_timestamp/localtime/localtimestamp
date
time
year
quarter
month
week
day
hour
datediff
date_add/adddate
date_sub/subdate
timestampdiff
timediff
addtime
subtime
str_to_date
date_format
time_format
dayname
weekday
dayofweek
dayofmonth
dayofyear
yearweek
last_day
extract
日期格式符
%Y
%m
%d
%H
%i
%s
%y
%M
间隔值interval
hour
day
week
month
quarter
year
day_hour
year_month
数学函数
abs
mod
ceil/ceiling
floor
mod
truncate
round
greatest
least
ln
log
pow/power
rand
条件函数
case when
if
ifnull
nullif
高级函数
bin
cast
coalesce
grouping
isnull
conv
json_extract
json_object
json_array
json_contains
SQL优化
只select必要列
避免子查询
group by去重
最佳左前缀索引
不在索引列进行运算操作
where/order by/group by中考虑
避免使用not与不等式
驱动表是小表,被驱动表是大表
把重复关联键少的表放在join前面
用in代替or
避免分页查询
order by null
union all
in与exists
in内表小外表大
exists内表大外表小
公共表表达式CTE
explain
好习惯
先理解业务需求,再分析需求,最后设计出要查询出的数据
先做 SQL 设计,再按设计编写实施
字段、虚表命名见名知义,且保留as
做好代码逻辑缩进
关键字大小保持一致(因为大小写不敏感)
对于没有 Where 的,SQL语句拼接常加 where 1=1
delete或者update语句,加个limit,先操作部分,管控风险
设计创建表的时候,所有表及字段都加上相应的注释
修改或删除重要数据前,一定先备份
尽量把所有列的无值的默认值定义为NOT NULL,少空间
修改删除前 WHERE 查询一下数据,看是不是要删除的内容
MySQL表必须使用Innodb存储引擎
字符集统一使用UTF8
学习资源
菜鸟教程MySQL
新手教程begtut
MySQL8官方文档
MySQL8非官方中文文档
github搜MySQL
w3schools教程MySQL
笔试面试题
Graphical-SQL-interview-questions
Hive_interview-question
经典50题sql-written
MySQL经典50题
数据库内核月报
MySQL8非官方优化文档
书籍
《MySQL必知必会》
《SQL必知必会》
《MySQL是怎样运行的》
《高性能MySQL》
《MySQL技术内幕 : InnoDB存储引擎》
《数据库系统概念》第7版
练习平台
牛客网
力扣网
SQLZOO
SQL Fiddle
软件
MySQL Workbench
MySQL Navicat
SQL Server
HiveSQL
知识体系
MySQL知识体系
复杂数据类型
array
map
struct
named_struct
查询语句
参数变量
${variable_name}
变量默认值
行转列
lateral view
多维度分析
grouping sets
with cube
with rollup
grouping__id
grouping函数
函数
聚合函数
collect_list
collect_set
percentile
percentile_approx
variance
corr
内置表生成函数UDTF
explode
json_tuple
stack
inline
字符函数
get_json_object
split
str_to_map
translate
regexp_replace
regexp_extract
initcap
parse_url
levenshtein
条件函数
ifnotnull
nvl
日期和时间函数
from_unixtime
unix_timestamp
to_date
add_months
next_day
trunc
yy/mm/dd/d/hh/mi
months_between
集合函数
size
sort_array
map_keys
map_values
array_contains
自定义函数
UDF
UDAF
UDTF
Hive SQL调优
数据倾斜问题
空值倾斜
赋予空值新的随机值
为空的值不参与关联
两表join时含有大量相同的key
启用两个作业,第一个作业处理没有倾斜的数据,第二个作业将倾斜的数据存到分布式缓存中,分到各个Map任务所在节点,在Map阶段完成join操作,避免shuffle,从而避免数据倾斜。
参数调优
set hive.map.aggr=true
set hive.groupby.skewindata = ture
合并小文件
分区表partitioned by
学习资源
盖若HiveSQL教程
HiveSQL官方函数大全
Python
知识体系
基础语法
标识符
保留字
注释
运算符
算术运算符
+
-
*
/
%
**
//
比较运算符
==
!=
>
>=
<
<=
赋值运算符
=
+=
-=
*=
/=
%=
**=
//=
:=
逻辑运算符
and
or
not
位运算符
&
|
~
^
<<
>>
成员运算符
in
not in
身份运算符
is
is not
运算符优先级
行与缩进
命令行
数据类型
number
int
float
bool
complex
string
list
tuple
set
dictionary
数据类型转换
逻辑判断
if...elif...else
if嵌套
match...case
循环迭代
for
while
break
continue
while...else
for...else
pass
推导式
列表推导式
字典推导式
集合推导式
元组推导式
迭代器与生成器
iter()
next()
yield
函数
定义函数
调用函数
参数传递
函数式编程
高阶函数
闭包函数
匿名函数
装饰器
模块
模块导入
标准模块
包
异常
输入输出
input()
文件
面向对象
类
方法
数据成员
类变量
实例变量
方法重写
继承
实例化
运算符重载
作用域
内建作用域
全局作用域
闭包函数外的作用域
局部作用域
数据处理分析
数据可视化
机器学习
爬虫
正则表达式
学习资源
菜鸟教程Python
廖雪峰Python教程
Python官方文档
Python在线速查手册
南京大学python视频教程
github上Python100天
github草根学Python
github上awesome-spider
github上matplotlib-cheatsheets
github搜Python
w3schools教程Python
github上Python算法学习
笔试面试题
interview_python
python_interview_question
python-interview
《剑指Offer》面试题Python实现
收集Python面试&练习题
书籍
《利用Python进行数据分析》
《Python编程从入门到实践》
《Python Cookbook》中文
常用包
分析
pandas
numpy
scipy
stats
collections
math
statistics
pandas_profiling
可视化
matplotlib
matplotlib英文文档
matplotlib中文文档
seaborn
seaborn英文文档
seaborn中文文档
pyecharts
plotly
模型
sklearn
statsmodels
keras
pytorch
tensorflow
爬虫
requests
bs4
quote
scrapy
selenium
urllib
文件/系统
os
shutil
pickle
json
csv
logging
sys
io
argparse
文本
re
wordcloud
jieba
gensim
nltk
图像
pillow
opencv
skimage
其他
datetime
time
random
threading
multiprocessing
queue
heapq
concurrent
asyncio
itertools
functools
hashlib
base64
unittest
timeit
pyforest
练习平台
牛客网
力扣网
PythonTip
编程可视化执行过程
软件
Anaconda
自带Jupyter
jupyter_contrib_nbextensions插件
PyCharm
Jupyterlab
VSCode
SPSS
知识体系
基本操作
通用方法
问卷研究
可视化
进阶方法
实验/医学研究
综合评价
计量经济研究
学习资源
张文彤的初中级和高级教学视频
SPSSAU平台
SPSSAU案例数据下载
如何快速掌握SPSS-SPSSAU
书籍
《问卷统计分析实务:SPSS操作与应用》
《SPSS其实很简单》
软件
SPSS26安装教程
R
学习资源
统计学&R学习资源
R语言资源整理
R语言入门学习路线与资源汇总
书籍
《R语言入门与实践》
《R语言实战》第2版
《R数据可视化手册》
《R数据科学》
软件
R安装
RStudio
SAS
可视化
数据图表
知识体系
折线图
基础折线图
堆积折线图
百分比堆积折线图
基础面积图
堆积面积图
百分比堆积面积图
柱状/条形图
基础柱状图
簇状柱状图
堆积柱状图
百分比堆积柱状图
双向柱状图
瀑布图
动态柱状图
饼图
基础饼图
圆环图
南丁格尔玫瑰图
旭日图
复合饼图
散点图
基础散点图
气泡图
P-P/Q-Q图
地图
面积图地图
点状图地图
气泡图地图
热力图地图
轨迹地图
饼图地图
柱状图地图
直方图
基础直方图
核密度图
帕累托图
极坐标系径向图
径向折线图
径向面积图
径向柱状图
径向条形图
和弦图
雷达图
漏斗图
箱线图
小提琴图
热力图
日历图
桑基图
河流图
仪表盘
进度条
指标卡
词云图
关系图
树状图
基础树状图
径向树状图
矩形树图
系统树图
凸树图
平行坐标系
双Y轴图
组合图
柱线图
联合分布图
日历热力图
复合条饼图
日历散点图
日历饼图
日历关系图
子弹图
茎叶图
曲面图
等高线图
3D图
K线图
学习资源
数据可视化资源库
北京大学可视化与可视分析博客
软件平台
Excel
BI工具
Tableau
w3xue中Tableau教程
Tableau官方培训视频
Tableau官网教程
Tableau Public作品
makeovermonday作品
PowerBI
FineBI
Python/R
ECharts
AntV
Flourish
信息图表
知识体系
思维导图
流程图
基本流程图
泳道图/跨职能流程图
时间线流程图
业务流程图BPMN
数据流程图
系统流程图
组织结构图
时间可视化图
甘特图
基础时间线图
比例尺时间线图
气泡时间线图
趋势线图
凹凸图
螺旋热图
扇形时间序列图
象限图
象形图
象形分数图
象形柱状图
插画示意图
维恩图
鱼骨图
社交网络图
点图
表格/列表
哑铃图
原型图UI
日程表
UML图
用例图
类图
对象图
序列图
协作图
状态图
活动图
构件图
部署图
ER图
学习资源
互联网人要了解的数据可视化
UI设计必备的导航网站
What is an Infographic
Flowing Data
Information is Beautiful
Information is Beautiful Awards
软件平台
ProcessOn
Canva
百度脑图
Xmind
创客贴
书籍
《Storytelling with Data》
《用数据讲故事》
《Beautiful Visualization》
《数据可视化之美》
《The Visual Display of Quantitative Information》
《商业仪表盘可视化解决方案》
《The Wall Street Journal Guide to Information Graphics》
统计学
知识体系
描述性统计
集中趋势
平均数
算术平均数
平方平均数
几何平均数
调和平均数
中位数
众数
分位数
离散程度
极差/全距
分位数
四分位数
四分位距
百分位数
方差
标准差
变异系数
异众比率
标准分数/z-score
基尼系数
分布形态
概念
矩
期望/原点矩
方差/2阶中心矩
正太分布
左偏态/负偏态
右偏态/正偏态
偏态/3阶中心矩
峰态/4阶中心矩
概率分布
重要概念
随机变量
频率
列联表
概率
分布
期望
方差
概率密度函数
累计分布函数
离散分布
伯努利分布/两点分布/0-1分布
二项分布/多重伯努利分布
泊松分布
超几何分布
几何分布
负二项分布
多项式分布
连续分布
均匀分布
正太分布/高斯分布
Z分数
标准正太分布
指数分布
统计推断四个分布
Z分布
卡方分布
T分布
F分布
其他分布
幂律分布
对数正太分布
伽马分布
贝塔分布
Dirichlet分布
大数定律和中心极限定理
伯努利大数定理
辛钦大数定理
切比雪夫大数定律
抽样
总体与样本
总体均值与样本均值
总体方差与样本方差
标准误
抽样技术
概率抽样
简单随机抽样
分层抽样
整群抽样
系统抽样
多级抽样
非概率抽样
方便抽样/任意抽样
判断抽样/立意抽样
定额抽样/定额抽样
自愿抽样
滚雪球抽样
重抽样
刀切法
自助法
交叉验证
参数估计
点估计
矩估计法
最大似然估计法
最小二乘法
贝叶斯推断
区间估计
重要概念
统计量
置信区间
置信水平
估计量
有效性
无偏性
一致性/相合性
四个分布
Z分布
卡方分布
T分布
F分布
一个总体区间估计
均值估计
大样本,方差已知
Z分布+总体方差
大样本,方差未知
Z分布+样本方差
小样本,近似正态,方差已知
Z分布+总体方差
小样本,近似正态,方差未知
T分布+样本方差
比例估计
大样本
Z分布
方差估计
卡方分布
两个总体区间估计
均值差估计
独立大样本,方差已知
Z分布+总体方差
独立大样本,方差未知
Z分布+样本方差
独立小样本,近似正态,方差已知
Z分布+总体方差
独立小样本,近似正态,方差未知
T分布+样本方差
比例差估计
独立大样本
Z分布
方差比估计
F分布
假设检验
重要概念
零假设与备择假设
统计量
显著性水平
P值
统计功效
样本量
拒绝域与接受域
一类错误与二类错误
单边检验与双边检验
检验方法
Z检验
卡方检验
拟合优度卡方检验
单变量样本比例与总体比例是否一致
独立性卡方检验/列联分析
多组分类样本的独立性
配对卡方
对同一批样本进行两种方法的检测
T检验
单样本T检验
一组样本与一个值
总体均值已知,方差未知
配对样本T检验
两组样本,数量相等(同一总体)
总体均值和方差都未知
独立样本T检验
两组样本,数量可以不等(不同总体)
总体均值和方差都未知
注意事项
正太性检验
正态图
P-P图
Q-Q图
方差齐性检验
独立样本需要
两组样本如何使用
满足正太性和方差齐性用T检验
满足正太性不满足方差齐性用校正T检验
Welch法
Satterthwaite法
Cochran & Cox法
不满足正态性和方差齐性用Mann-Whitney U检验
数据方差相差太大用Mann-Whitney U检验
F检验/方差分析ANOVA
单因素方差分析
一个因素在变化
多组样本间的差异
双因素方差分析
多因素方差分析
注意事项
正太性检验
方差齐性检验
多组样本如何使用
满足正太性和方差齐性用F检验
满足正太性不满足方差齐性用校正F检验
Welch法
多个样本均数的两两比较
SNK法/Q检验
多组间两两比较
Dunnett-t法
多个实验组与一个对照组间的两两比较
Games-Howell法
方差不齐时多组间的两两比较
非参数检验
Spearman相关系数
对应参数检验:Pearson相关系数
卡方检验
对应参数检验:Pearson相关系数
Wilcoxon符号秩检验
单样本数据差异
对应参数检验:单样本T检验
配对数据差异
对应参数检验:配对样本T检验
Wilcoxon秩和检验/Mann-Whitney U检验
两组不同总体数据差异
对应参数检验:独立样本T检验
Kruskal-Wallis H检验
多组数据差异
对应参数检验:方差分析/F检验
K-S检验
检验一组样本是否来自于某个概率分布
两独立样本K-S检验
计量经济学中的三大检验
似然比检验LR
Wald检验
拉格朗日乘子检验LM
相关性分析
Pearson相关系数
Spearman秩相关系数
Kendall秩相关系数
相关系数检验
干扰因素
干扰因子
中介因子
对撞因子
自由度
误差与残差
回归分析
回归分析方法
线性回归
逻辑回归
多项式回归
逐步回归
Ridge回归
Lasso回归
ElasticNet回归
回归系数检验
普通最小二乘法
相关性与因果性
时间序列
AR自回归
MA移动平均
指数平滑法
ARMA自回归移动平均
ARIMA差分整合自回归移动平均
HMM隐马尔可夫
生存分析
统计图形
因果推断
学习资源
可汗学院公开课
统计学-维基百科
统计学&R学习资源
书籍
《深入浅出统计学》2018出版
《赤裸裸的统计学》
《商务与经济统计》
《行为科学统计》
《统计学》
《为什么 : 关于因果关系的新科学》
机器学习
知识体系
特征工程
特征预处理
缺失值
异常值
14种异常检测方法
归一化
最大最小归一化
标准化
二值化0-1
离散化
哑变量
独热编码one-hot
数据变换
对数
指数
Box-Cox
映射
衍生变量
特征选择
人工特征选择
无意义特征
缺失值比率
过滤式Filter
方差选择法
Pearson相关系数
卡方检验法
互信息法
包裹式Wrapper
递归特征消除法
前向特征选择法
完全搜索
启发式搜索
随机搜索
嵌入式Embedded
基于正则化
L1: Lasso回归
L2: Ridge岭回归
基于树模型(特征重要性)
深度学习
样本不平衡
欠采样/下采样
过采样/上采样
样本权重
数据增强
模型方法
有监督模型
单模型
广义线性模型
线性回归
逻辑回归
Lasso回归(L1)
Ridge回归(L2)
K最近邻
支持向量机
决策树
ID3
C4.5
Cart
朴素贝叶斯
集成模型
Bagging
随机森林=决策树+Bagging
Boosting
提升树=决策树+Boosting
AdaBoost
GBDT
XGBoost
LightGBM
CatBoost
Stacking
无监督模型
聚类
K-Means
层次聚类
DBSCAN
谱聚类
均值漂移聚类
高斯混合模型
AP聚类
降维
PCA主成分分析
LDA线性判别分析
因子分析
SVD奇异值分解
t-SNE
关联规则
Apriori
FP-Growth
半监督模型
概率模型
贝叶斯
朴素贝叶斯
贝叶斯网络
概率图
CRF条件随机场
HMM隐马尔可夫
MCMC马尔可夫链蒙特卡罗算法
EM算法
最大熵模型
时间序列
AR自回归
MA移动平均
ARMA自回归移动平均
ARIMA差分整合自回归移动平均
HMM隐马尔可夫
综合评价法
AHP层次分析法
熵权法
TOPSIS
模糊综合评价
灰色关联法
主成分分析
因子分析
数据包络分析
链接分析
PageRank
HITS
主题模型
LDA潜在狄利克雷分布
LSA潜在语义分析
PLSA概率潜在语义分析
因果推断
神经网络
模型评价
评估方法
留出法
交叉验证法
自助法Bootstrap
评价指标
回归
MAE
MSE
RMSE
MAPE
决定系数R方
校正决定系数
分类
混淆矩阵
Accuracy准确率
Precision精确率/查准率
Recall召回率/查全率
Fβ-Score和F1-Score
ROC
AUC
PRC
在线A/B测试
用户生命周期值LTV
点击率CTR
转化率CVR
用户留存率CRR
用户流失率CCR
学习资源
数学基础
统计学-可汗学院
概率-可汗学院
线性代数-可汗学院
微积分-可汗学院
吴恩达机器学习课程
斯坦福CS229课程
斯坦福CS229速查表
吴恩达机器学习笔记
李宏毅机器学习课程
scikit-learn中文文档
ShowMeAI
面向机器学习的特征工程
机器学习100天练习
github上AiLearning
数据竞赛Top解决方案
cheatsheet-datacamp
数据科学笔记
cheetsheet速查表
cheatsheets-ai
ds-cheatsheets
AI cheetsheets
cheetsheets制作-cheatography
cheat-sheets
cheat.sh命令行
awesome-cheatsheets中文速查表
overapi速查表
机器学习面试
机器学习面试复习资源
机器学习面试1000题系列
机器学习面试150题
机器学习面试-七月在线
Data science interview
数据分析工程师面试
数据分析师面试
书籍
《机器学习实战》第2版
《机器学习》周志华西瓜书
《统计学习方法》李航
《统计学习方法》代码实现
《集体智慧编程》
《机器学习公式详解》南瓜书
数学基础
《概率论与数理统计》陈希孺
《线性代数及其应用》麻省理工
《普林斯顿微积分读本》
《The Element of Statistical Learning》
《Pattern Recognition and Machine Learning》
《An Introduction to Statistical Learning》
《Computer Age Statistical Inference》
练习平台
Kaggle
和鲸社区
天池
业务知识
重要概念
维度
指标
原子指标
复合指标
粒度
口径
量纲
数据分析流程
沟通需求
分析需求可行性与必要性
搭建分析框架
数据获取
内部数据平台看板
SQL
第三方数据
爬虫
数据预处理
Excel
Python
数据分析与建模
Excel
Python
统计学
机器学习
数据可视化
Excel
PPT
BI工具
在线平台
Python
分析报告撰写
Word
PPT
在线平台
分析思维方法
周期分析
自然周期
生命周期
用户生命周期
产品生命周期
趋势分析
结构分析
维度拆解/指标构成拆解
公式拆解/业务流程拆解
漏斗分析
AARRR模型
获取—激活—留存—收入—传播
PRAPA模型
路径分析
杜邦分析
MECE原则
分层分析
阈值划分
业务经验人为划定
统计方法
平均值
中位数
二八法则
分位数
拐点法
3-sigma
6-sigma
机器学习模型
聚类
对比分析
纵向对比
横向对比
对比维度
时间维度
年同比YoY
月环比MoM
周环比WoW
日环比DoD
基期对比
空间维度
计划对比
经验值或理论值对比
集中趋势
离散程度
分布形态
矩阵分析/象限分析
同期群/群组分析
留存分析
复购分析
RFM分析
A/B测试
归因分析
多渠道归因分析
传统归因分析
首次触点归因
末次触点归因
线性归因
时间衰减归因
基于位置归因/U型归因
自定义归因
算法归因
Shapley Value
马尔科夫链
生存分析
Harsanyi Dividend
多分类算法
归因分析步骤
选择目标转化事件
选择待归因事件
选择时间窗口
选择归因模型
UE模型
画像分析
标签分析
帕累托分析/ABC分类/二八分析
营销/商业/咨询/战略分析
逻辑树分析
5W2H分析
WHWHORERE
人货场理论
用户消费营销模型
AARRR模型
获取—激活—留存—收入—传播
AIPL模型
认知—兴趣—购买—忠诚
AISAS模型
注意—兴趣—搜索—行动—分享
AIDMA模型
注意—兴趣—欲望—记忆—行动
电商漏斗模型
浏览首页—浏览详情页—提交订单—支付订单
FAST模型
GROW模型
麦肯锡七步分析法
商业模式画布
SWOT分析
PEST分析
STP分析
4P营销理论
4C营销组合
4S理论
4R理论
4V理论
4I理论
波特五力分析
BCG矩阵/波士顿矩阵
GE矩阵
KANO模型
重要紧急四象限
SMART原则
STAR原则
RACI模型
OKR法
闭环思维
PDCA
26个咨询常用分析模型
商业及营销世界最常用的23个模型
统计学/机器学习
描述统计
相关分析
回归分析
聚类分析
交叉分析/列联表分析
关联分析
购物篮分析
方差分析
因子分析
主成分分析
时间序列
假设检验
因果推断
DID双重差分法
Matching方法
K2K
Propensity Score Matching
Coarsened Exact Matching
综合评价法
AHP层次分析法
熵权法
TOPSIS
模糊综合评价
灰色关联法
主成分分析
因子分析
数据包络分析
问卷分析
分类模型
盈亏平衡分析
库存周转分析
敏感性分析
用户研究
问卷
访谈
结构式访谈
半结构式访谈
完全开放式访谈
焦点小组
可用性测试
概念测试
卡片分类
日志研究
参与式设计
眼动测试
竞品分析
标杆分析法
用户体验要素分析法
SWOT分析法
PEST分析法
四象限分析法/矩阵分析法
表格分析法/有无分析法
对比法
卡诺模型
评分法
功能拆解分析法
雷达图分析法
波特五力模型分析法
竞品画布分析法
5Why分析法
用户路径分析法
视觉表达分析法
需求探索分析法
竞品跟踪矩阵分析法
16种常见的竞品分析方法
手把手教你从0开始做竞品分析
行业研究
案头研究Desk Research
实地调研Field Research
专家访谈
投行知识:行业研究方法总结
工作内容&职责
数据分析流程中的事项
经营分析
指标异动归因
业务效果评估
活动效果评估
广告投放评估
功能迭代评估
策略方案评估
定价策略
价值收益测算
A/B实验评估
经营现状问题
目标制定与拆解
业务瓶颈与机会
异常数据排查
搭建数据体系
数据分析体系
数据指标体系
北极星指标
产品指标体系
广告指标体系
活动评估体系
数据监控体系
搭建报表看板
BI建设
数据&决策支持
运营策略
产品迭代
流程优化
页面布局
功能增删
广告投放
市场拓展
用户增长
数据仓库建设
数据/算法建模
用户画像/标签建设
商业分析
专题研究
商业模式
产品发展
用户研究
行业研究
战略研究
案例研究
项目管理
优先级排序
团队建设
沉淀文档输出知识
面试求职者
带新人
月报/周报/日报
日常会议
书籍
《精益数据分析》
《增长黑客 : 如何低成本实现爆发式成长》
《硅谷增长黑客实战笔记》
《数据化管理 : 洞悉零售及电子商务运营》
《关键迭代:可信赖的线上对照实验》
《计算广告 : 互联网商业变现的市场与技术》第2版
RTA广告
oCPX
《电商数据分析与数据化运营》
垂类行业
互联网
电商
短视频
直播
游戏
O2O
餐饮
旅游
出行
酒店
电影
休闲玩乐
广告
信息流
媒体
金融
风控
汽车
咨询
快消/新零售/消费电子
运营商
制造业
房地产
医药
软技能
书籍
《金字塔原理》
《学会提问》
《用图表说话》
《高效能人士的七个习惯》
能力
沟通能力
逻辑思维能力
快速学习能力
独立思考能力
数据敏感
跨团队协作
结构化思维
系统思考
抗压能力
业务能力
商业判断能力
理解能力
总结归纳能力
信息搜集能力
自驱力
文字表达能力
独立发现并解决问题能力
组织协调能力
项目推动能力
适应能力
商业洞察能力
同理心
用户思维
产品思维
互联网思维
运营思维
品质/性格
团队合作精神
责任心
耐心细致
积极主动
工作认真
诚信正直
敬业精神
感兴趣/求知欲/立志发展
进阶知识
数据仓库
知识体系
基本概念
实体
维度
度量
粒度
口径
指标
标签
下钻
上卷
ETL
数仓分层
ODS数据源层
业务数据库
流量日志
三方数据
DW数据明细层
事实表Fact
维度表Dimension
DM数据轻度汇总层
APP数据应用层
主题报表
BI分析
数据挖掘
数仓建模
维度建模法
星形模型
雪花模型
范式建模法
第一范式1NF
第二范式2NF
第三范式3NF
Boyce-Codd范式BCNF
第四范式4NF
第五范式5NF
实体建模法
实体
事件
说明
数据治理
规范治理
架构治理
元数据治理
安全治理
数据生命周期治理
学习资源
零基础怎么去学习数据仓库
构建与优化数据仓库-阿里云DataWorks
数据仓库实战教程-阿里云
数据仓库-美团技术团队
数仓建设保姆级5W字教程
数据仓库学习资料-帆软
数据仓库学习笔记
书籍
《The Data Warehouse Toolkit》
《数据仓库工具箱 : 维度建模权威指南》第3版
《数据仓库》第4版
《数据中台:让数据用起来》
大数据
知识体系
数据收集层
数据交换
Sqoop
关系型数据收集
Kettle
DataX
Canal
用于实现数据的增量导入
NiFi
数据收集
Flume
非关系型流式数据收集
Logstash
Filebeat
Chukwa
基于Hadoop的用于监控分布式系统的数据收集系统
Scribe
Fluentd
Logtail
消息系统
Kafka
分布式消息队列
RabbitMQ
RocketMQ
ActiveMQ
Pulsar
数据存储层
数据存储
分布式文件系统
HDFS
Hadoop分布式文件系统
Google GFS
GPFS
Ceph
GlusterFS
BeeGFS
Alluxio
Lustre
PVFS
Kudu
分布式列式存储数据库
关系型数据库
Oracle
MySQL
Microsoft SQL Server
PostgreSQL
IBM DB2
SQLite
Microsoft Access
Hive
基于Hadoop的数据仓库
Spark SQL
Impala
Presto
Vertica
ClickHouse
国产:OceanBase、TiDB、openGauss、达梦、人大金仓
非关系型数据库
键值数据库
Redis
Memcached
DynamoDB
列式数据库
Cassandra
分布式NoSQL数据库
HBase
基于HDFS的分布式列数据库
Google Cloud Bigtable
文档数据库
MongoDB
CouchDB
图形数据库
Neo4j
JanusGraph
NebulaGraph
Memgraph
搜索引擎数据库
ElasticSearch
分布式可扩展实时搜索和分析引擎
Solr
基于Lucene的全文搜索服务器
Splunk
NewSQL数据库
Google Spanner
YugabyteDB
PingCAP的TiDB
VoltDB
CockroachDB
阿里的OceanBase
腾讯的TBase
腾讯的TDSQL
中兴通讯的GoldenDB
巨杉的SequoiaDB
内存技术
Terracotta
Ignite
GemFire
GridGain
管理服务
系统部署
YARN
Hue
Mesos
Ambari
用于配置、管理和监控Hadoop集群
Kubernetes/K8s
服务管理
ZooKeeper
分布式服务协调系统
Thrift
资源调度
Oozie
管理Hadoop任务的流程调度工具
Airflow
Aurora
Falcon
Azkaban
Linkedin开源的批量工作流任务调度器
监控管理
CM
Dr.Elephant
Ganglia
Zabbix
Eagle
数据治理
Ranger
Sentry
Atlas
数据计算层
分布式编程
MapReduce
离线分布式计算框架
Spark
用Scala实现的数据分析集群计算框架
Storm
分布式流式实时计算引擎
Flink
分布式数据流处理框架
Tez
建立在YARN之上的数据处理分布式执行引擎
Kinesis
Trident
Apache S4
HaLoop
Samza
Apex
Beam
Heron
查询引擎
Hive
基于MapReduce/Tez实现的SQL引擎
Presto
Facebook开源的MPP系统SQL引擎
Impala
Cloudera开源的MPP系统SQL引擎
ClickHouse
SparkSQL
基于Spark实现的SQL引擎
Pig
基于MapReduce/Tez实现的类SQL引擎
Kylin
Lucene
全文检索引擎工具包
Solr
基于Apache Lucene
Elasticsearch
Drill
Phoenix
Stinger
Tajo
Shark
HAWQ
数据分析层
分析应用
Jupyter
Kylin
Splunk
Talend Open Studio
可视化
Kibana
D3.js
ECharts
Lumify
Pentaho
SpagoBI
Jaspersoft
Zeppelin
机器学习
TensorFlow
Torch
Keras
Caffe
Theano
mxnet
Spark MLlib
Mahout
基于MapReduce的数据挖掘算法库
Hivemall
结合面向Hive的多种机器学习算法
Weka
Deeplearning4j
平台
云平台
Amazon AWS
Microsoft Azure
Google Cloud Platform(GCP)
国内:阿里云、腾讯云、华为云、百度云
大数据系统平台
Hadoop
Apache最原始版本
CDH
Cloudera版本
HDP
Hortonworks版本
CDP
Cloudera新版本
开发平台
Apache Beam
Cascading
基于Hadoop的应用程序开发平台
学习资源
awesome-bigdata
大数据相关开源项目及组件汇总
数据库排名
书籍
《大数据之路:阿里巴巴大数据实践》
《大数据技术原理与应用》第2版
《大数据日知录》
深度学习
知识体系
神经网络
MLP
BP神经网络
卷积网络
CNN
LeNet
AlexNet
VGG
ResNet
DenseNet
循环网络
RNN
LSTM
GRU
Encoder-Decoder
Auto-Encoder
Seq2Seq
注意力机制
软性注意力
普通模式K=V
键值对模式K!=V
注意力分布计算
加性模型
点积模型
缩放点积模型
双线性模型
硬性注意力
注意力分布最大采样
注意力分布随机采样
多头注意力
自注意力
Transformer
BERT
GAN
GNN图神经网络
GCN图卷积网络
GAT图注意力网络
GAE图自编码器
GGN图生成网络
GSN图时空网络
研究方向
自然语言处理NLP
斯坦福CS224n课程
计算机视觉CV
斯坦福CS231n课程
斯坦福CS223B课程
数据科学DS(数据挖掘)
推荐系统RS(搜/推/广)
强化学习RL
李宏毅强化学习课程
David Silver强化学习课程
知识图谱KG
大模型
学习资源
吴恩达深度学习课程
吴恩达深度学习笔记
斯坦福CS230课程
斯坦福CS230速查表
深度学习面试
深度学习500问
深度学习面试宝典
深度学习面试-七月在线
算法工程师面试及资料
算法工程师机器学习面试
CS-Notes
github上27个面试项目集合
coding-interview-university
书籍
《深度学习入门:基于Python的理论与实现》
《深度学习》(花书)
github上的《Deep Learning》数学推导、原理剖析与代码实现
《动手学深度学习》
0 条评论
下一页