etl
2016-01-06 16:50:10 2 举报
ETL(Extract, Transform, Load)是一种数据集成过程,用于从多个源系统中提取数据、对数据进行转换和清洗,然后将结果加载到目标数据库或数据仓库中。ETL的主要目的是将分散的、不一致的数据整合为一个统一的、一致的视图,以便进行分析和决策支持。 在ETL过程中,首先通过数据抽取(Extract)从源系统中获取原始数据,然后通过数据转换(Transform)对数据进行清洗、过滤和转换,以满足目标系统的需求。最后,通过数据加载(Load)将处理后的数据导入到目标数据库或数据仓库中。
作者其他创作
大纲/内容
Kafka
飞鸽
门户
ETL工作流与易用性
TiSpark
Flink
统一视图
2020年:
DP 基础组件与应用变化
ETLpipeline+算子+实时计算
实时计算
计算平台:1. 流程机制调整结构(回溯)2. 提升稳定性和性能(链路速度)3. 扩展运算能力(算子)4. 异构GPU计算能力or线性扩展CPU
2017年:
业务查询金融&航旅
iframe图表
邮局
更加开放,基于数据权限
数据资产管理
统一视图,简化操作,降低找数据的时间成本
业务查询:慢,散,少
销售提成
ETL稳定性提升
离线分析即席查询Hue
蜂鸟对接Tableu
NewSQL/TiDB
FlinkSQL
ReportDB
ETL
离线分析权限体系
API升级与Docker迁移
SparkX
内存数据库 /OLAP/CH
内报
Sqoop
NewReport
Spark1.x
GraphSQL/其他
GraphSQL/Neo4j
Spark升级
销售后台
2019年:
HDFS/Hive
计算性能,提升20%-30%
TiDB升级与使用
资产管理:指标化存储管理,基于热度
离线分析数据隔离
其他基础性&前瞻性研究
业务查询
2018年:
数据资产数据热度
离线分析
业务查询行政
0 条评论
下一页