数据入街道/社区数据仓治理流程20210727
2021-07-27 13:08:03 0 举报
数据入三级数据仓治理流程
作者其他创作
大纲/内容
解析出路和路号
数据治理:赋码
在统一地址库中进行模糊搜索sourceadress字段,得到code字段值
解析出建筑物和楼栋户室号
数据治理:配置
交换归集数据库/Excel/API
数据入街道/社区数据仓
开始
参考实现:https://github.com/IceMimosa/geocoding.git数据根据是否已赋码进行定时(待定)增量解析
入仓要求:1. 数据增量入18个街道数据仓2. 对于同一条数据多地址赋码后,街道码相同时,更新插入。
性能考虑:统一地址数据定时(一周)增量写入ES。
街道/社区数据仓
给所选表的字段3_add_code进行赋码
选择一张表并增加字段2_add_code空字段
可能存在
给所选表的字段2_add_code进行赋码
数据入区数据仓
地址字段1
多个字段组成一个地址字段3
数据入三级数据仓治理流程
选择一张表并增加字段1_add_code空字段
路+路号+建筑物+楼栋户室号
结束
模糊匹配搜索思路:1.先用路+路号+建筑/小区+楼栋户室号,整体精细化匹配。如能匹配到,则,结束。2. 1如匹配不到,采用路+路号+建筑物/小区+楼栋户室号,采用楼栋户室号的变化(具体变化需要分析和调试)进行匹配。如能匹配到,则,结束。3. 2如匹配不到,采用路+路号+建筑物/小区进行匹配。如能匹配到,则,结束。4. 3如匹配不到,采用路+路号进行匹配。如能匹配到,则,结束。5. 4如匹配不到,采用路+路号,加上路号的变化(具体变化需要分析和调试)进行匹配,如能匹配到,则,结束。6. 5如匹配不到,直接结束……注:如果解析得到的信息中没有建筑物或者路的信息,则整个流程会简化……
选择一张表并增加字段3_add_code空字段
地址字段2
解析出建筑物和楼栋户室号户室号
区数据仓
根据add_code入街道/社区仓
给所选表的字段1_add_code进行赋码
0 条评论
下一页