数据架构师职业知识框架
2022-10-21 14:38:47 0 举报
AI智能生成
数据架构师职业知识框架
作者其他创作
大纲/内容
网站日志
业务数据库
来自于Ftp/Http的数据源
1. 数据采集
Oracle
分布式文件系统
主节点 :只有一个
接受用户操作请求
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间关系
NameNode
有很多个
从节点
存储文件
文件被分成block存储在磁盘上
文件有多个副本
DataNode
HDFS
数据存储
STAGE
DWD
MID
用户
行为
商家
商品
DM
DIM
Hive
数据仓库
国信自研产品
Kettle
Airflow
主流开源产品
ETL
分布式计算框架
主节点:只有一个
接受用户提交的技术任务
把计算任务分配给TaskTracker执行
监控TaskTracker的执行情况
JobTracker
从节点:有很多个
执行JobTracker分配的计算任务
TaskTracker
FIFO批处理队列调度器
Capacity Scheduler 多用户容量调度器
FairScheduler 多用户公平调度器
MR任务调度
MapReduce
基于内存计算的大数据并行计算框架,构建大型、低延迟的数据分析应用程序
使用DAG执行引擎以支持循环数据流与内存计算
支持Scala、Java、Python和R语言进行编程
完整的技术栈:SQL查询、流式计算、机器学习和图算
独立集群、云上环境可读取Cassandra、HBase、Hive等数据源
概述
Spark
数据分析和计算
2. 数据存储与分析
分类
维度
指标
数据可视化
统计报表
抓重点业务或关键路径
体系化叙述
重点数据解释
编写参考 玩转keynote
数据报告
关键指标转化
影响业务决策
影响运营决策
影响老板决策
商业智能
数据预警
数据预测
数据查询
对运营支持的数据工具
对业务销售支持的数据工具
业务附能
行业标准和数据共享
垂直行业指数项目
B端客户数据价值展示
To B产品
结合产品规划
推荐
搜索
风控
舆情
用户画像
反作弊
To C产品
数据产品
IOT场景
AI场景探索
数据交换场景
规则漏洞-业务场景漏洞-效率优化
场景探索
3. 数据应用
数据架构师职业知识框架
0 条评论
回复 删除
下一页