数据脱敏
2022-06-07 00:27:34 3 举报
AI智能生成
数据脱敏
作者其他创作
大纲/内容
4.实现数据审计
1.日志整理
2.技术选型
ELK
子主题
Ranger Audit 记录用户审计日志到HDFS,可查用户操作数据历史
ApacheEagle
优势
1.内置支持Hadoop、Hive、Yarn等常用日志且支持自行扩展
2.内置多种报警插件且支持自行扩展
3.界面化作业配置提交和控制Storm起停、不写代码完成规则配置
4.界面化统计历史报警信息和细节
缺点
1.依赖Storm,消费延迟时调优没经验
2.部署不太方便,版本旧,资料不多
3.实现数据脱敏
SDM数据治理
基于ApacheAtlas实现表元数据信息收集
使用ApacheAtlas对数据资产分类分级
SDM权限管控
基于LDAP+Ranger+Atlas的细粒度权限管控
Ranger非实时拉取LDAP数据
Ranger AccessManager 列屏蔽 行过滤
Ranger+Atlas 基于标签的安全服务
面临的问题
集群组件版本较低,无法兼容新版Ranger,改源码工作量大
Ranger 0.4.1 支持Hadoop2.6.0 Hive 0.14.0 HBase0.99.2
Ranger 0.5 支持Hadoop 2.7.0+ Hive 1.2.0 HBase1.1.0(后续版本不支持Hadoop2.6.0,原因INodeAttributeProvider不存在)
Ranger >0.6 Hive支持2.x 不确定是否支持1.x
SDM字段脱敏
根据已有规则库配置脱敏
Ranger 内置脱敏策略也支持HiveUDF自定义脱敏策略
多冗余的脱敏
DDM动态脱敏
动态脱敏
自研脱敏平台
耗费大量人力成本,但效果更好
需求
1.保证数据安全
2.不破坏原有数据的关联关系和业务规则
3.权衡数据安全性和数据可用性,找到平衡点
4.结合数据、业务需求合理制定脱敏规则库
5.脱敏支持多个组件,细粒度控制(精确到Hive列,HBase列,HDFS目录,Yarn队列,KafkaTopic)
6.安全审计是脱敏的一部分,也需要完善的审计和报警体系
7.权限如何控制 切换是否灵活 考虑计算存储成本 考虑运行效率、维护难易
1.敏感数据发现
从数据来源分析
1.埋点数据Hive、HBase
2.Sqoop同步、udc同步
3.Es2Hive
4.其他
库和字段分析
1.人工整理-敏感字段名、字段含义、分类
2.自动化匹配发现和整理
3.数据分类(按业务、按安全等级)
4.结合已有血缘梳理涉及库表
数据操作审计
1.sql_log审计日志
2.完善对除了thrift外的数据操作审计日志收集
HBase
Kudu
Yarn
Impala
HiveCli
2.敏感数据梳理-制定规则库
完善Atlas上的数据分类、安全性分级
用户数据
企业数据
非敏感数据
敏感数据
一级敏感数据
二级敏感数据
三级敏感数据
可推断
不可推断
敏感字段汇总
直接暴露用户、企业、资金等敏感信息的字段
间接暴露敏感信息的字段
根据多个字段可推断出敏感信息的字段
制定高效的字段脱敏算法规则库
可逆脱敏
唯一值映射(通过映射表找回原值)
双向加密
RES
AES
DES
......
不可逆脱敏
替代
随机变换
混洗
加密
遮挡
Hash映射
偏移
截断
局部混淆
均值
保证业务含义
不保证业务含义
场景及解决方案示例
https://smartbridge.com/overview-data-masking-methods/
http://www.oracle.com/us/products/database/data-masking-best-practices-161213.pdf
0 条评论
下一页