算法安全
2024-02-03 15:17:32 0 举报
AI智能生成
算法安全前沿领域
作者其他创作
大纲/内容
训练阶段
数据投毒
恶意植入训练数据
投毒防御
低维
离群点清洗
聚类
多二分类器
在线学习
上界近似估计
生成恶意数据
放大训练损失
得到近似上界
了解当前模型对数据投毒的鲁棒性
通过主动寻找模型的弱点来侧重于模型构建的改进
起步阶段
部署测试中
对抗攻击
概念
神经网络
结构示例
攻击方式
白盒攻击
已有权重参数,通过增加图片精度以下的扰动使得梯度朝着上升方向前进)
LBFGS
计算成本高
非凸近似解
凸精确解
FGSM
迁移能力好
攻击性差
BIM(基本迭代法)
迁移性弱
攻击性好
单像素点攻击
JSMA
属于真实数据分布,但模型不能对这类图像进行有效拟合
盲点攻击
通过添加一定范围的小扰动(不可察觉)使得a类样本与b类样本在网络的某一层输出相似
特征攻击
......
黑盒攻击
估计梯度
零阶优化
通用扰动
群体进化
GAN
......
物理攻击
总结
方向敏感性估计
扰动选择
改变输入
防御手段
主动防御
蒸馏防御
大模型蒸馏到小模型
防止白盒攻击
降低网络敏感度,提升鲁棒性
不适用强鲁棒性的模型
样本随机化
调整大小
填充
压缩
前向传播的随机性使得其鲁棒性好
不消耗算力
兼容不同的网络,可以作为基本模块
输入重构
带惩罚项的变分自编码网络
添加高斯噪声
自编码器编码
去噪
部分抵御白盒攻击,但无法完全抵御白盒攻击,对黑盒更有效
略微损失精度
对抗训练
主动攻击产生对抗样本训练优化模型
对抗训练
已知攻击方式防止白盒攻击
集成对抗训练
未知攻击方式,多对抗模型防止过拟合,防止黑盒攻击,对白盒攻击效果差
稳定性训练
对网络本身进行鲁棒性增强
引入额外的训练目标
加入扰动样本训练
归一化平缓变化
被动防御
检测对抗样本
人工确定不同类别输入的范围和区域,通过网络验证进行规范化
集成防御
根据深度学习的流形假设区分原始样本和对抗样本,检测对抗样本,将其流形转移至原始样本流形
高维流形
确认流形边界
检测边界外样本
重构边界样本
不依赖原本网络的的参数,泛用性强
独立于对抗样本的生成过程,不需要对抗样本的训练
整体泛用性好,但能力不强
0 条评论
下一页