目录

Claude Mythos Preview安全研究揭秘:27年漏洞发现与AI安全新范式

Claude Mythos Preview安全研究揭秘:27年漏洞发现与AI安全新范式

§1 视频概述

1.1 来源信息

项目内容
发布者宝玉xp(前微软Asp.Net MVP,2025微博年度新知博主)
观看量3.4万次
发布时间发布于美国
翻译Jesse Lau 遁一子

1.2 核心议题

本视频解析了Anthropic研究团队利用Claude Mythos Preview进行安全研究的重大发现:

“在 OpenBSD 上,我们发现了一个存在了 27 年的漏洞——我只需向任意 OpenBSD 服务器发送几段数据就能让它崩溃。”

“在 Linux 上,我们发现了多个漏洞,作为一个没有任何权限的用户,只需在机器上运行一个二进制文件,就能将自己提升为管理员。”


§2 模型能力的指数级跃升

2.1 Dario Amodei的核心观点

Anthropic CEO Dario Amodei指出:

“有一种加速的指数级增长,而在这条指数曲线上,存在着一些意义重大的节点。Claude Mythos Preview 就是其中一个特别大的跃升。”

关键洞察

观点说明
意外的能力涌现我们并没有专门训练它擅长网络安全,我们训练它擅长编程,但擅长编程的副产品是,它在网络安全方面也非常出色
专业级表现这个模型在识别漏洞方面基本上已经和专业人类水平相当
防御价值这对我来说是好事,因为我们能更早发现更多漏洞并加以修复

2.2 能力跃升的本质

# Claude Mythos Preview 的能力公式

安全研究能力 = f(编程能力, 自主性, 长周期任务执行)

# 关键洞察:
# - 编程能力 → 代码理解 → 安全漏洞识别
# - 自主性 → 独立调查 → 漏洞链构建
# - 长周期任务 → 持续分析 → 深度挖掘

§3 漏洞链条与自主性:核心发现

3.1 Nicholas Carlini的发现

Anthropic研究员Nicholas Carlini指出:

“它具备将多个漏洞串联起来的能力,这意味着你发现了两个漏洞,单独看都不算什么,但这个模型能够利用三、四个甚至五个漏洞组合出攻击链,按顺序执行后达成某种非常复杂的最终效果。”

漏洞链构建示意图

┌─────────────────────────────────────────────────────────────┐
│              AI驱动的漏洞链构建                                │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  漏洞A ──┐                                                   │
│          ├──→ 漏洞B ──┐                                    │
│  漏洞C ──┘             ├──→ 攻击链 ──→ 完整漏洞利用        │
│  漏洞D ───────────────┘                                                │
│                                                              │
│  传统方法:单独发现漏洞A、B、C,各自为战                       │
│  Claude Mythos:自动识别关联性,构建攻击路径                   │
│                                                              │
└─────────────────────────────────────────────────────────────┘

3.2 自主性的关键作用

Anthropic研究员的解释:

“我们认为这个模型之所以能做得这么好,是因为它非常自主,它在执行长周期任务方面整体更强,类似于一个人类安全研究员一整天所做的那种工作。”

传统安全测试Claude Mythos辅助
人工渗透测试AI初步扫描
逐个漏洞分析自动关联分析
手工构建攻击链AI自动构建
有限时间窗口持续深度扫描

§4 震惊业界的实测结果

4.1 OpenBSD:27年历史的漏洞

Nicholas Carlini的发现:

“在 OpenBSD 上,我们发现了一个存在了 27 年的漏洞——我只需向任意 OpenBSD 服务器发送几段数据就能让它崩溃。”

漏洞特征

属性描述
存在时间27年
影响范围任意OpenBSD服务器
利用方式发送特定数据即可触发崩溃
修复状态已通知并修复

4.2 Linux:权限提升漏洞

“在 Linux 上,我们发现了多个漏洞,作为一个没有任何权限的用户,只需在机器上运行一个二进制文件,就能将自己提升为管理员。”

权限提升类型

// 典型的本地权限提升漏洞模式

// 用户空间 → 内核空间
漏洞类型1: 任意内核内存写入
漏洞类型2: 提权到root
漏洞类型3: 容器逃逸

// 利用条件:
// - 无需预先权限
// - 只需执行一个二进制文件
// - 影响主流Linux发行版

4.3 扫描范围与成果

平台发现状态
OpenBSD27年历史漏洞已修复
Linux多个权限提升漏洞已修复
主要操作系统大量漏洞分批通知中

Nicholas Carlini的总结:

“在我过去几周发现的漏洞,比我这一辈子之前发现的加起来还多。”


§5 玻璃翼计划:安全研究新范式

5.1 计划的诞生背景

Anthropic研究员的解释:

“显然,这样的模型如果落入不当之手,其能力可能造成危害,因此我们不会大范围发布这个模型。”

为什么不能公开?

风险类型潜在威胁
漏洞武器化恶意行为者可利用发现
0day交易漏洞可能在地下市场出售
国家级APT定向网络攻击能力
勒索软件自动化漏洞利用

5.2 玻璃翼计划核心架构

Dario Amodei的阐述:

“更强大的模型将会从我们和其他机构中不断涌现,所以我们确实需要一个应对计划。”

┌─────────────────────────────────────────────────────────────┐
│              玻璃翼计划 (Project Glasswing) 架构                │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│                    ┌─────────────────┐                       │
│                    │  Claude Mythos  │                       │
│                    │  Preview Model  │                       │
│                    └────────┬────────┘                       │
│                             │                               │
│                    ┌────────┴────────┐                       │
│                    │  受信任合作伙伴  │                       │
│                    │  (白帽优先获取)  │                       │
│                    └────────┬────────┘                       │
│                             │                               │
│     ┌───────────────────────┼───────────────────────┐        │
│     │                       │                       │        │
│     ↓                       ↓                       ↓        │
│ ┌────────┐           ┌────────┐           ┌────────┐    │
│ │ OpenSSF │           │  操作系统  │           │  云服务商 │    │
│ │ 基金会  │           │  维护者    │           │          │    │
│ └────┬───┘           └────┬───┘           └────┬───┘    │
│      │                    │                    │         │
│      └────────────────────┴────────────────────┘         │
│                           │                                │
│                           ↓                                │
│                 ┌─────────────────┐                       │
│                 │   协调防御行动   │                       │
│                 │  发现 → 修复 → 部署 │                       │
│                 └─────────────────┘                       │
│                                                              │
└─────────────────────────────────────────────────────────────┘

5.3 合作伙伴的视角

OpenSSF(Open Source Security Foundation)代表的观点:

“通过让这些软件开发者率先获得先进工具,这为我们所有人赢得了集体性的先发优势,它让我们能够发现以前发现不了的问题,并帮助我们更快地修复这些问题。”


§6 安全研究的范式转变

6.1 从人力到AI驱动

维度传统方法AI辅助方法
覆盖范围有限代码审计全量代码扫描
发现速度数周/数月数小时/数天
漏洞关联人工关联AI自动串联
持续性项目周期持续监控
规模化专家稀缺可扩展

6.2 安全研究的新逻辑

# 安全研究的新范式

class AISecurityResearch:
    def __init__(self, model):
        self.model = model
        self发现的漏洞 = []
    
    def 全面扫描(self, target_codebase):
        """AI驱动的大规模代码扫描"""
        潜在漏洞 = self.model.analyze(target_codebase)
        漏洞链 = self.model.chain_vulnerabilities(潜在漏洞)
        return 漏洞链
    
    def 负责任披露(self, 漏洞):
        """负责任的安全披露流程"""
        if self.is_critical(漏洞):
            self.通知维护者(漏洞)
            self.等待修复()
            self.协调发布()
        else:
            self.标准披露流程()

6.3 社会安全的意义

Anthropic研究员的总结:

“我们生活中的一切现在都依赖于软件。软件吞噬了世界,我们生活中的每一个模拟层面,都以某种方式映射到了数字领域。”

“网络安全就是社会的安全。”


§7 合作与治理

7.1 政府合作

Dario Amodei的表态:

“我们已与美国政府多个部门的官员进行了沟通,并表示愿意与他们合作,共同评估这些模型的风险,并帮助防御这些风险。”

7.2 行业协作

“各行各业携手合作,共同构建更强大的防御能力,这至关重要,没有一个组织能看到全貌并独自应对这一切。”

7.3 时间维度

“这不是几周的项目就能完成的事,这将是几个月、甚至可能几年的工作。”

长期愿景

目标状态:
├── 世界的软件比以前更安全
├── 客户数据得到更好保护
├── 金融交易基础设施更安全
└── 关键基础设施防御能力提升

§8 争议与思考

8.1 视频评论区的多元观点

观点类型代表性评论
安全担忧“越来越有《疑犯追踪》的感觉了”
开放性质疑“不开放,没法蒸馏了怎么办”
地缘政治“世界要分裂了,以安全之名”
技术乐观“正向增益正在放大,AGI指日可待”
实践问题“漏洞什么都没说,是真是假谁知道”

8.2 关键问题思考

## 安全研究的伦理边界

### 1. 透明度问题
- 漏洞细节公开程度?
- 何时发布技术细节?
- 社区响应机制?

### 2. 访问控制
- "有限发布"如何定义?
- 合作伙伴筛选标准?
- 退出机制?

### 3. 能力不对称
- 白帽vs黑帽的AI能力差距?
- 小型组织如何获得防护?
- 全球安全格局变化?

§9 总结

9.1 核心发现

发现影响
27年OpenBSD漏洞长期潜伏漏洞的发现能力
Linux权限提升从用户到root的自动化路径
漏洞链构建AI驱动的复杂攻击路径发现
玻璃翼计划负责任AI安全研究的新范式

9.2 关键洞察

“我们生活中的一切现在都依赖于软件。软件吞噬了世界。网络安全就是社会的安全。”

9.3 未来展望

Anthropic的目标:

“但我希望最终我们能达到这样一个状态:世界的软件,客户数据,金融交易和关键基础设施,都比以前更加安全。”


视频信息

  • 发布者:宝玉xp
  • 翻译:Jesse Lau 遁一子
  • 核心参与:Dario Amodei, Nicholas Carlini, Anthropic研究团队

🦞 文档版本:v1.0 | 写作日期:2026-04-09