数据脱敏(去标识化)
2023-06-15 17:35:27 0 举报
AI智能生成
数据脱敏体系介绍
作者其他创作
大纲/内容
分类
Data Desensitization(去敏感化)
特点
不影响数据分析结果的准确性
可逆-一般情况下可还原成原始数据
降低数据敏感度,保护个人隐私
保留数据原始格式和结构
使用场景
需要保留数据原始格式和结构,同时需要可逆操作的场景,如数据分析研究
Data Masking(屏蔽)
特点
对部分数据进行模糊化、混淆处理
不可逆
保护数据隐私和安全性
使用场景
需要隐藏重要信息且不要求还原数据场景,如数据共享
效果
De-identification(去标识化)
通过删除或替换属性值来保护数据隐私
可以保留数据的分布特征和可用性,但是不能完全保证数据的安全性
Anonymization(匿名化)
通过对加密、扰动、数据合成等技术保护数据隐私
可以更加有效地保护数据隐私,但可能会对数据的可用性和分析效果产生影响
技术
统计技术
数据抽样
选取有代表性的数据子集,经常用于去标识化的预处理
数据聚合
用统计值(求和、平均、最大值等)反映原始数据集中的所有记录
密码技术
保留格式加密
密文和明文具有相同的格式、类型、长度
同态密钥共享
特殊的密钥管理技术,适用于多方计算、机密数据共享等场景
非随机加密方法
确定性加密
始终为给定的纯文本值生成相同的加密值,可以保证数据真实可用
保序加密
密文排序和明文排序相同,局限于检查数据相等和排序比较关系
随机加密方法
同态加密
支持对密文进行处理,处理后的结果解密后,和明文用同样方式处理的结果一致
弊端:效率低、存储成本高
抑制技术
屏蔽
部分数据移除
删除、替换或部分隐藏敏感数据,如手机号中间4位替换成*
数据隔离
访问控制、身份验证、加密等安全措施
数据限制
削减敏感数据的收集范围、去标识化或匿名化等方式,如市场调研中,只统计年龄段和地区,不统计身份证号码等敏感信息
局部抑制
删除特定属性值(列)
记录抑制
删除特定记录(行)
假名化技术
独立于标识符的假名创建技术
不依赖被替代的属性原始值,而是独立生成,典型方法是用随机值代替原始值
基于密码技术的标识符派生假名创建技术
对属性值采用加密或散列等密码技术生成假名
泛化技术
取整
概率取整
为所选的属性选定一个取整基数,按概率确定向上或向下取整
受控取整
如确保取整值的求和结果与原始数据的求和取整值相同
顶层与底层编码
为某一属性设定一个可能的最大(或最小)阀值,输出结果是高于(或低于)该阀值
随机化技术
噪声添加
通过添加随机值到所选的连续属性值中,同时尽可能保持该属性在数据集中的原始统计特性
置换
静态置换
将数据中的某些属性值替换为固定的值
非静态置换
将数据中的某些属性值替换为动态生成的值
微聚集
将数据中的某些值进行微小的扰动,扰动后的数据仍然保持原有的分布特征
数据合成
合成数据集与原始数据特性相符
技术选型因素
唯一性
可逆性
完整性
不可区分性
顺序一致
格式一致
类型一致
统计特征保留
随机噪声添加
成本约束
计算成本
存储成本
处理效率
风险度量
数据风险度量
敏感程度
价值
可用性
完整性
环境风险度量
存储设备安全性
网络安全性
系统安全性
典型场景
静态脱敏
应用场景&技术
应用测试数据
随机化
屏蔽
模型训练数据
id假名化
属性值保序加密
数据抽样
数据导出
屏蔽
局部抑制
动态脱敏
数据库动态脱敏
应用场景&技术
研发人员开发测试
DBA日常数据管理
运维人员的基础运维
应用系统动态脱敏
应用场景&技术
前端敏感数据脱敏展示
API网关数据脱敏
大数据平台综合场景
应用场景&技术
ETL过程的抽取、加工
保序加密or对称加密
面向分析人员(类数据库动态脱敏)
屏蔽
数据导出(类静态脱敏)
屏蔽、局部抑制
数据产品&数据报告
应用场景&技术
数据监控产品、看板
数据类应用产品
数据分析报告
0 条评论
下一页