DataX学习
2022-02-09 14:28:30 17 举报
AI智能生成
DataX学习
作者其他创作
大纲/内容
简介
alibaba开源异构离线同步工具
https://github.com/alibaba/DataX
支持数据源
MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS
ETL(Extract-Transform-Load)
抽取(extract)
转换(transform)
加载(load)至目的端
设计理念
结构
原理
易于扩展
xxx数据库类型
reader模块
writer模块
...
插件开发文档
https://github.com/alibaba/DataX/blob/master/dataxPluginDev.md
可能的扩展方向
主动调用
这里最有可能的是扩展基于http resutful接口
datax改造,编写插件
httpApiReader
从http restful 接口中获取数据
httpApiWriter
没有writer
datax-web改造
后端适配,可以配置出httpApiPlugin相关的json文件
调度执行部分代码逻辑要扩展
被动接受
待定
DataX-web
简介
可视化配置界面
docs
项目地址:https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md
linux安装文档:https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md
博客:https://segmentfault.com/u/weiye_jing/articles
调优
分布式
开源单机版,可以做集群,但是不可以分布式部署
可以搭建多个实例,跑不同的任务
性能调优
https://www.cnblogs.com/hit-zb/p/10940849.html
性能测试
切分策略,作业切分成多个Task并行执行,速度随并发成线性增长。
在源端和目的端性能都足够的情况下,单个作业一定可以打满网卡。
参考测试报告:https://www.it610.com/article/1283424802408775680.htm
0 条评论
下一页