Pentaho ETL数据同步流程图
2021-01-25 16:03:13 238 举报
Pentaho ETL数据同步流程图是一个用于描述数据从源系统到目标系统传输和转换过程的图形化表示。该流程图通常包括以下步骤:首先,源系统中的数据被提取出来,然后通过数据清洗和转换操作进行处理,以满足目标系统的需求。接下来,处理后的数据被加载到目标系统中。在整个过程中,可能会涉及到一些错误处理和日志记录操作,以确保数据的完整性和可靠性。此外,该流程图还可能包括一些监控和调度任务,以确保数据同步的及时性和准确性。总之,Pentaho ETL数据同步流程图是一个非常有用的工具,可以帮助我们更好地理解和管理数据同步过程。
作者其他创作
大纲/内容
2.数据同步周期长
HDFS
针对数据实时敏感度低
HBASE
XML
接口推送
SqlServer
依赖配置
T+1定时抽取分钟\\小时抽取
1.海量数据批处理同步
4.数据错误容忍度低
......
由T+1对实时同步计算数据进行校对
5.数据重复、丢失零容忍
Big Data
数据装载
数据异常处理
AEL计算下压
转换
DB2
不适用超出同步周期数据处理能力数据量的处理
小批量数据
Pentaho 数据同步流程方案架构图
抽取方式
文件
T+1适用场景
Hive
Hbase
数据清洗
Kudu
接口
能保证exactly-once数据同步
复杂度低的处理逻辑
字符集转换
业务逻辑处理
JDBC\\ODBC
S3 存储文件
Oracle
不适用分钟级内数据处理延迟同步
Kafka
不支持窗口计算
实时
...
CSV、TXT文件
数据核对
基于自增主键或时间的增量处理
数据处理异常会导致任务退出
.......
不支持数据延迟处理
数据消费
由T+1对小时、分钟级数据进行校正
3.数据链路绝对可靠
实时同步、计算适用场景
小时、分钟级适用场景
Impala
流式据源
可能会存在数据丢失或数据重复情况
Streaming Consumer
数据实时性要求高
不存在更新或少量更新
Mysql
数据源
Pentaho PDI
0 条评论
下一页