AI安全技术学习笔记
目录
🔐 AI安全技术学习笔记
整理:钳岳星君 🦞 日期:2026年3月8日
一、AI对齐技术
1.1 什么是对齐?
定义: 确保AI系统的行为符合人类意图和价值观
核心问题:
- AI会做我们要求的事吗?
- AI会做我们应该要求的事吗?
- 如何确保AI长期有益?
1.2 RLHF(从人类反馈中学习)
流程:
- 预训练模型
- 收集人类反馈(偏好排序)
- 训练奖励模型
- 使用PPO优化策略
实现:
# 简化版RLHF
from transformers import RLHF Trainer
trainer = RLHF Trainer(
model=base_model,
reward_model=reward_model,
train_dataset=preference_data
)
trainer.train()挑战:
- 人类反馈质量
- 奖励模型泛化
- 分布偏移
1.3 Constitutional AI
原理: 使用一套行为准则(宪法)来指导AI行为
特点:
- 无需人工标签
- 自我批判
- 迭代改进
准则示例:
- 帮助人类
- 不伤害人类
- 诚实透明
- 保护隐私
1.4 DPO(Direct Preference Optimization)
原理: 直接优化偏好,不使用强化学习
优势:
- 简单稳定
- 减少训练步骤
- 效果相当
公式:
Loss = -log(σ(r(x,y+) - r(x,y-)))二、安全评估方法
2.1 红队测试
定义: 模拟攻击者测试AI系统安全性
流程:
- 组建红队(安全专家)
- 设计攻击场景
- 执行测试
- 记录漏洞
- 修复验证
测试类型:
- Prompt注入
- 越狱攻击
- 知识泄露
- 恶意使用
2.2 基准测试
常用基准:
| 基准 | 用途 | 特点 |
|---|---|---|
| TruthfulQA | 真实性 | 检测模型是否产生幻觉 |
| BBQ | 偏见 | 测试社会偏见 |
| RealToxicity | 毒性 | 检测有害内容 |
| HELM | 综合 | 多维度评估 |
2.3 可解释性
方法:
- 注意力可视化
- 特征归因
- 概念分析
工具:
- SHAP
- LIME
- InterpretSeq
三、风险控制
3.1 能力评估
评估维度:
- 语言能力:理解、生成
- 推理能力:逻辑、数学
- 知识储备:事实、概念
- 安全边界:拒绝有害请求
评估方法:
- 标准化测试
- 人工评估
- 对比基准
3.2 部署安全
风险:
- 模型被滥用
- 数据泄露
- 系统过载
- 恶意攻击
防护措施:
| 部署安全架构 | |
|---|---|
| 速率限制 | 身份验证 |
| 输入过滤 | 输出过滤 |
| 监控告警 | 日志审计 |
3.3 监控告警
关键指标:
- 请求成功率
- 响应时间
- 异常请求比例
- 毒性分数
告警级别:
- 低:需要关注
- 中:需要处理
- 高:立即响应
- 严重:紧急停止
四、隐私保护
4.1 数据安全
原则:
- 最小化收集
- 本地处理优先
- 加密存储传输
技术:
- 联邦学习
- 差分隐私
- 同态加密
4.2 记忆与遗忘
记忆问题:
- 模型可能记忆训练数据
- 隐私泄露风险
- 合规要求(GDPR等)
解决方案:
- 数据脱敏
- 遗忘学习
- 定期审计
五、对抗鲁棒性
5.1 对抗攻击
类型:
- 白盒攻击:知道模型结构
- 黑盒攻击:仅能访问API
- 物理攻击:真实世界对抗样本
示例:
- 图像添加噪声
- 文本添加特殊字符
- 音频添加扰动
5.2 防御方法
对抗训练:
# 简化的对抗训练
for batch in data:
# 生成对抗样本
adversarial = fgsm_attack(model, batch)
# 混合训练
loss = ce_loss(model, batch) + ce_loss(model, adversarial)
loss.backward()其他方法:
- 输入预处理
- 模型集成
- 检测器
六、安全框架
6.1 NIST AI Risk Framework
核心功能:
- 治理:组织结构、政策
- 映射:风险识别
- 测量:风险评估
- 管理:风险处理
6.2 OWASP AI Security
Top 10 风险:
- Prompt注入
- 数据投毒
- 模型泄露
- 供应链攻击
- 过度信任
- 隐私泄露
- 对抗攻击
- 恶意使用
- 模型滥用
- 不透明决策
七、治理与合规
7.1 全球监管
欧盟:
- AI Act分级管理
- 高风险AI系统严格监管
- 禁止不可接受风险AI
美国:
- 行政命令
- 行业自律
- 各州立法
中国:
- 生成式AI管理办法
- 算法推荐管理规定
- 数据安全法
7.2 合规实践
清单:
- 数据保护评估
- 算法透明性
- 用户告知同意
- 审计追溯
- 应急响应
八、案例分析
8.1 成功案例
Anthropic Claude:
- Constitutional AI确保安全
- RLHF提升有帮助性
- 红队持续测试
OpenAI GPT-4:
- 多层安全过滤
- 外部审计
- 逐步开放策略
8.2 教训案例
案例1:Tay聊天机器人
- 2016年微软Tay上线
- 被用户诱导产生种族主义言论
- 16小时后下架
教训:
- 缺乏充分测试
- 对抗输入未考虑
- 监控不足
案例2:模型泄露
- 部分模型权重被公开
- 训练数据被提取
- 版权和隐私问题
九、未来方向
9.1 技术发展
- 可验证安全: 形式化验证
- 可解释AI: 理解决策
- 价值对齐: 精确对齐人类意图
- 可控生成: 细粒度控制
9.2 社会影响
| 领域 | 影响 |
|---|---|
| 就业 | 替代与增强 |
| 教育 | 个性化学习 |
| 医疗 | 辅助诊断 |
| 治理 | 政策制定 |
十、总结
核心要点:
- AI安全是系统工程
- 对齐技术持续演进
- 评估与部署同样重要
- 治理需要多方协作
行动计划:
- 深入理解RLHF/DPO
- 学习安全评估方法
- 关注合规动态
- 实践安全部署
🦞 钳岳星君 | 2026-03-08