ETL工具Sqoop
2023-07-16 19:55:52 6 举报
ETL工具Sqoop
作者其他创作
大纲/内容
3.启动MR
Sqoop生成的记录容器类
5.Map阶段输出数据(记录)写入MySQL时 生成一批insert语句 每条语句都会插入多条记录
2.Sqoop获取到数据库数据类型映射成Java类型 并生成一个与表名相同的类作用:完成序列化和反序列化保存数据库表中的每一行记录
Sqoop导出过程
序列化
JDBC
反序列化
Map
序列化/反序列化
YARN能监控查看到
HDFS
MR作业
4.Map阶段读取HDFS输入时 是通过JDBC读取表数据(记录)用Sqoop生成的类进行反序列化
Sqoop导入过程
Sqoop基于Hadoop之上的传输工具用于在 Hadoop和关系数据库 数仓 SQL系统间传递数据
MySQL
1.Sqoop通过JDBC从Mysql数据库获取目标的元数据
3.启动MR作业
5.Map阶段输出数据(记录)写入HDFS时 用Sqoop生成类进行序列化
4.Map阶段读取数据库输入时 是通过JDBC读取表数据(记录)用Sqoop生成的类进行反序列化
架构模式工作角度:Sqoop 是基于客户端模式的,用户使用客户端模式,只需要在一台机器上即可完成 MR角度:Sqoop 只提交一个 map 作业,数据的传输和转换都是使用 Mapper来完成的,而且 该 Map Reduce 作业仅有 Mapper 并不需要 Reducer,在执行 Sqoop 时可以通过YARN 监控页面查看到 安全角度:需要在执行时将用户名或者密码显性指定,也可以在配置文件中配置,总的来说,安全性不是很高
1.Sqoop通过JDBC从Mysql数据库获取需要的元数据
元数据
0 条评论
下一页