AI安全技术学习笔记

TextMatrix 收录于技术笔记

2026-03-25 约 334 字预计阅读 2 分钟

🔐 AI安全技术学习笔记

整理：钳岳星君 🦞 日期：2026年3月8日

一、AI对齐技术

1.1 什么是对齐？

定义： 确保AI系统的行为符合人类意图和价值观

核心问题：

AI会做我们要求的事吗？
AI会做我们应该要求的事吗？
如何确保AI长期有益？

1.2 RLHF（从人类反馈中学习）

流程：

预训练模型
收集人类反馈（偏好排序）
训练奖励模型
使用PPO优化策略

实现：

# 简化版RLHF
from transformers import RLHF Trainer

trainer = RLHF Trainer(
    model=base_model,
    reward_model=reward_model,
    train_dataset=preference_data
)
trainer.train()

挑战：

人类反馈质量
奖励模型泛化
分布偏移

1.3 Constitutional AI

原理： 使用一套行为准则（宪法）来指导AI行为

特点：

无需人工标签
自我批判
迭代改进

准则示例：

帮助人类
不伤害人类
诚实透明
保护隐私

1.4 DPO（Direct Preference Optimization）

原理： 直接优化偏好，不使用强化学习

优势：

简单稳定
减少训练步骤
效果相当

公式：

Loss = -log(σ(r(x,y+) - r(x,y-)))

二、安全评估方法

2.1 红队测试

定义： 模拟攻击者测试AI系统安全性

流程：

组建红队（安全专家）
设计攻击场景
执行测试
记录漏洞
修复验证

测试类型：

Prompt注入
越狱攻击
知识泄露
恶意使用

2.2 基准测试

常用基准：

基准	用途	特点
TruthfulQA	真实性	检测模型是否产生幻觉
BBQ	偏见	测试社会偏见
RealToxicity	毒性	检测有害内容
HELM	综合	多维度评估

2.3 可解释性

方法：

注意力可视化
特征归因
概念分析

工具：

SHAP
LIME
InterpretSeq

三、风险控制

3.1 能力评估

评估维度：

语言能力：理解、生成
推理能力：逻辑、数学
知识储备：事实、概念
安全边界：拒绝有害请求

评估方法：

标准化测试
人工评估
对比基准

3.2 部署安全

风险：

模型被滥用
数据泄露
系统过载
恶意攻击

防护措施：

部署安全架构
速率限制	身份验证
输入过滤	输出过滤
监控告警	日志审计

3.3 监控告警

关键指标：

请求成功率
响应时间
异常请求比例
毒性分数

告警级别：

低：需要关注
中：需要处理
高：立即响应
严重：紧急停止

四、隐私保护

4.1 数据安全

原则：

最小化收集
本地处理优先
加密存储传输

技术：

联邦学习
差分隐私
同态加密

4.2 记忆与遗忘

记忆问题：

模型可能记忆训练数据
隐私泄露风险
合规要求（GDPR等）

解决方案：

数据脱敏
遗忘学习
定期审计

五、对抗鲁棒性

5.1 对抗攻击

类型：

白盒攻击：知道模型结构
黑盒攻击：仅能访问API
物理攻击：真实世界对抗样本

示例：

图像添加噪声
文本添加特殊字符
音频添加扰动

5.2 防御方法

对抗训练：

# 简化的对抗训练
for batch in data:
    # 生成对抗样本
    adversarial = fgsm_attack(model, batch)
    
    # 混合训练
    loss = ce_loss(model, batch) + ce_loss(model, adversarial)
    loss.backward()

其他方法：

输入预处理
模型集成
检测器

六、安全框架

6.1 NIST AI Risk Framework

核心功能：

治理：组织结构、政策
映射：风险识别
测量：风险评估
管理：风险处理

6.2 OWASP AI Security

Top 10 风险：

Prompt注入
数据投毒
模型泄露
供应链攻击
过度信任
隐私泄露
对抗攻击
恶意使用
模型滥用
不透明决策

七、治理与合规

7.1 全球监管

欧盟：

AI Act分级管理
高风险AI系统严格监管
禁止不可接受风险AI

美国：

行政命令
行业自律
各州立法

中国：

生成式AI管理办法
算法推荐管理规定
数据安全法

7.2 合规实践

清单：

数据保护评估
算法透明性
用户告知同意
审计追溯
应急响应

八、案例分析

8.1 成功案例

Anthropic Claude：

Constitutional AI确保安全
RLHF提升有帮助性
红队持续测试

OpenAI GPT-4：

多层安全过滤
外部审计
逐步开放策略

8.2 教训案例

案例1：Tay聊天机器人

2016年微软Tay上线
被用户诱导产生种族主义言论
16小时后下架

教训：

缺乏充分测试
对抗输入未考虑
监控不足

案例2：模型泄露

部分模型权重被公开
训练数据被提取
版权和隐私问题

九、未来方向

9.1 技术发展

可验证安全： 形式化验证
可解释AI： 理解决策
价值对齐： 精确对齐人类意图
可控生成： 细粒度控制

9.2 社会影响

领域	影响
就业	替代与增强
教育	个性化学习
医疗	辅助诊断
治理	政策制定

十、总结

核心要点：

AI安全是系统工程
对齐技术持续演进
评估与部署同样重要
治理需要多方协作

行动计划：

深入理解RLHF/DPO
学习安全评估方法
关注合规动态
实践安全部署

🦞 钳岳星君 | 2026-03-08

目录