Magika：Google 开源的 AI 文件类型检测方案

TextMatrix 收录于技术笔记

2026-04-16 约 9384 字预计阅读 24 分钟

Magika：Google 开源的 AI 文件类型检测方案

目标读者：安全工程师、后端开发者、文件系统维护者、AI 研究者 预计阅读时间：40-55 分钟 前置知识：Python 基础、了解机器学习分类任务、对文件类型有基本认识 难度定位：⭐⭐⭐⭐ 专家设计

§1 本文覆盖内容

Magika 的核心原理：为何深度学习比传统 magic bytes 更适合文件类型检测
200+ 文件类型的检测能力：覆盖 binary 和 text 格式
CLI 和 Python API 用法：批量检测、递归扫描、JSON 输出
预测分数和阈值机制：high-confidence、medium-confidence、best-guess 模式
集成到自己的项目：Python/JavaScript/Go/Rust 多语言绑定
生产级部署：Google 内部的规模化应用经验

§2 背景与动机：为何需要 Magika

2.1 传统文件类型检测的局限

传统文件类型检测有两种主要方法：

方法一：扩展名检测

example.pdf → "PDF文件"
example.py → "Python文件"

问题：扩展名可以随意修改，无法信任。

方法二：Magic Bytes 检测

\x89PNG\r\n\x1a\n → PNG 图片
\xffd8ffe → JPEG 图片

问题：对于 text 文件（Python/JavaScript/JSON 等），magic bytes 检测效果很差，因为这些文件开头通常是普通字符。

2.2 Text 文件检测的痛点

Text 文件在文件开头通常没有独特的二进制签名：

# Python 文件
def hello():
    print("world")

# JavaScript 文件
function greet() {
    console.log("hi");
}

# JSON 文件
{"name": "value"}

# 扩展名被改后都长得一样：
# script.txt vs script.py vs script.js

传统基于 magic bytes 的工具在这些情况下几乎无法区分。

2.3 Magika 的解决方案

Magika 使用深度学习来检测文件类型，核心思路：

不是检测文件开头，而是分析文件的整体内容模式
不是查表，而是让模型学习每种文件类型的特征
不是固定规则，而是自适应的统计模型

结果：在 text 文件类型检测上，准确率从传统方法的 60-70% 提升到 ~99%。

2.4 项目概览

属性	值
Stars	13,574 ⭐
组织	Google
语言	Python (核心) + Rust (CLI) + JavaScript/TypeScript + Go
许可证	Apache 2.0
创建时间	2023-08-22
官网	https://securityresearch.google/magika/

2.5 Google 内部规模应用

Magika 在 Google 内部大规模使用：

产品	用途	规模
Gmail	附件类型检测	每周千亿级文件
Google Drive	文件类型识别	百万级用户
Safe Browsing	恶意文件检测	亿级 URL 检测

§3 核心原理：深度学习如何检测文件类型

3.1 模型架构

Magika 使用一个轻量级的深度学习模型：

特性	值
模型大小	~1 MB
推理时间	~5ms/文件（单 CPU）
训练数据	~100M 文件样本
支持类型	200+ content types

架构推测（基于公开信息）：

很可能是基于 Transformer 或 CNN 的序列分类模型
输入：文件内容的 tokenized representation
输出：200+ 类别上的概率分布

3.2 为什么不使用 LLM 或大模型？

Magika 特意选择小型专用模型而非通用大模型：

对比维度	Magika	通用大模型
模型大小	~1 MB	数百 MB 到 GB
推理速度	5ms	数百 ms 到秒
资源消耗	极低	高
专用准确率	~99%	较低（通用任务）
部署难度	简单	复杂

3.3 为什么不使用文件扩展名？

Magika 完全忽略文件扩展名，仅基于内容检测：

# 扩展名 vs 内容
"malware.exe" (扩展名是 .exe)
→ 内容是 Python 脚本 → Magika 识别为: python

"document.pdf" (扩展名是 .pdf)
→ 内容是文本 → Magika 识别为: generic text

这使得 Magika 能够：

检测伪装文件：恶意软件常伪装扩展名
纠正错误扩展名：用户可能搞混 .py/.pyi/.pyw
无信任输入：在任何场景下都可靠

3.4 训练数据与评估

训练数据集：

~100M 文件样本
涵盖 200+ 文件类型
二进制格式（PNG/JPEG/PDF）和文本格式（Python/JS/JSON）混合

测试集性能：

Average Precision & Recall: ~99%
Text 类型检测：大幅领先传统方法
Binary 类型检测：保持高准确率

§4 核心功能详解

4.1 支持的文件类型

Magika 支持 200+ 文件类型，主要分类：

代码类（Code）：

类型	Label	MIME Type	扩展名
Python	`python`	text/x-python	.py, .pyi
JavaScript	`javascript`	text/javascript	.js, .mjs
TypeScript	`typescript`	text/typescript	.ts, .tsx
C	`c`	text/x-c	.c, .h
C++	`cpp`	text/x-c++	.cpp, .hpp
Java	`java`	text/x-java	.java
Rust	`rust`	text/x-rust	.rs
Go	`go`	text/x-go	.go
Ruby	`ruby`	text/x-ruby	.rb
PHP	`php`	text/x-php	.php
HTML	`html`	text/html	.html, .htm
CSS	`css`	text/css	.css
SQL	`sql`	text/x-sql	.sql
Shell/Bash	`shell`	text/x-shellscript	.sh, .bash

配置文件类（Config）：

类型	Label	扩展名
JSON	`json`	.json
YAML	`yaml`	.yml, .yaml
XML	`xml`	.xml
TOML	`toml`	.toml
INI	`ini`	.ini
Dockerfile	`dockerfile`	Dockerfile
Git Config	`git config`	.git/config

文档类（Document）：

类型	Label	MIME Type
PDF	`pdf`	application/pdf
Microsoft Word	`docx`	application/vnd.openxmlformats-officedocument.wordprocessingml.document
Markdown	`markdown`	text/markdown
Plain Text	`text`	text/plain

二进制类（Binary）：

类型	Label	MIME Type
PNG	`png`	image/png
JPEG	`jpeg`	image/jpeg
GIF	`gif`	image/gif
ELF	`elf`	application/x-elf
PE/EXE	`pe`	application/x-executable
SQLite	`sqlite`	application/vnd.sqlite3

4.2 CLI 核心用法

基本检测：

# 检测单个文件
magika ./script.py

# 检测多个文件
magika file1.py file2.js file3.json

# 从标准输入读取
cat script.py | magika -

递归扫描：

# 递归检测目录
magika -r ./my_project/

# 不跟随符号链接
magika -r --no-dereference ./my_project/

输出格式：

# JSON 输出
magika ./script.py --json

# JSONL 输出（适合批量处理）
magika -r ./files/ --jsonl > results.jsonl

# 仅输出标签
magika ./script.py --label
# 输出: python

# 仅输出 MIME 类型
magika ./script.py --mime-type
# 输出: text/x-python

# 输出预测分数
magika ./script.py --output-score
# 输出: Python source (score: 0.997)

自定义格式：

# 使用占位符自定义输出
magika ./script.py --format "%l: %d (score: %S%)"

# 支持的占位符：
# %p - 文件路径
# %l - 标签 (python)
# %d - 描述 (Python source)
# %g - 分组 (code)
# %m - MIME type
# %e - 扩展名
# %s - 分数 (小数)
# %S - 分数 (百分比)
# %% - 字面 %

4.3 Python API

基础用法：

from magika import Magika

# 初始化（模型加载，一次性开销）
m = Magika()

# 检测字节内容
res = m.identify_bytes(b'function log(msg) {console.log(msg);}')
print(res.output.label)  # javascript

# 检测文件路径
res = m.identify_path('./config.json')
print(res.output.label)  # json

# 检测流（大型文件推荐）
with open('./large_file.py', 'rb') as f:
    res = m.identify_stream(f)
print(res.output.label)  # python

获取详细信息：

res = m.identify_path('./script.py')

# 获取所有信息
info = res.output
print(info.label)       # python
print(info.description)  # Python source
print(info.mime_type)    # text/x-python
print(info.extensions)   # ['py', 'pyi']
print(info.group)        # code
print(info.is_text)      # True

# 获取预测分数
print(res.score)  # 0.996999979019165

批量检测：

from pathlib import Path

# 批量检测多个文件
files = [
    './script.py',
    './config.json',
    './data.csv',
    './image.png'
]

for file_path in files:
    res = m.identify_path(file_path)
    print(f"{file_path}: {res.output.label}")

4.4 预测分数与阈值机制

Magika 使用per-content-type threshold 系统：

三种预测模式：

模式	描述	适用场景
`high-confidence`	只返回高置信度预测，否则返回 `unknown`	安全关键场景，宁缺毋滥
`medium-confidence`	中等置信度，允许一定不确定性	一般用途（默认）
`best-guess`	总是返回最可能的预测	性能优先、已知类型

分数解释：

res = m.identify_path('./script.py')
print(res.score)  # 0.997

# 分数 > 阈值 → 返回具体类型
# 分数 < 阈值 → 返回泛型标签
#   - "Generic text document"
#   - "Unknown binary data"

4.5 与其他工具的集成

VirusTotal 集成： Magika 已被 VirusTotal 采用，用于增强文件类型识别能力。VirusTotal 分析可疑文件时会返回 Magika 的检测结果。

abuse.ch 集成：恶意软件追踪平台 abuse.ch 也集成了 Magika，用于准确识别恶意文件的真实类型。

§5 技术架构深度解析

5.1 多语言架构

Magika 提供多种语言的绑定：

┌─────────────────────────────────────────┐
│              Magika Core                │
│         (Python + TensorFlow)           │
├─────────────────────────────────────────┤
│  Python API  │  Rust CLI  │  JS/TS     │
│  (pip)       │  (cargo)  │  (npm)     │
├──────────────┴───────────┴─────────────┤
│              Go bindings (WIP)          │
└─────────────────────────────────────────┘

5.2 模型格式

Magika 使用自定义模型格式（.magika），约 1MB：

model.magika/
├── model.json       # 模型结构定义
├── weights.bin      # 量化权重
├── vocab.json       # 词表
└── config.json      # 阈值配置

5.3 推理优化

轻量化设计：

模型量化（quantization）
CPU 优化（无 GPU 也很快）
内存映射（memory-mapped I/O）

近常量推理时间：无论文件大小，推理时间都约 5ms，因为 Magika 只读取文件的一部分内容。

5.4 依赖项

Python 依赖：

# 核心依赖
tensorflow>=2.10  # 或 tensorflow-cpu
tensorflow-hub>=0.12

# 工具依赖
tqdm  # 进度条
rich  # 格式化输出

Rust CLI 依赖（cargo 安装时）：

tokio（异步运行时）
serde（序列化）
clap（CLI 解析）

§6 安装与配置

6.1 CLI 安装

pipx（推荐）：

pipx install magika

Homebrew（macOS/Linux）：

brew install magika

安装脚本：

# Linux/macOS
curl -LsSf https://securityresearch.google/magika/install.sh | sh

# Windows PowerShell
powershell -ExecutionPolicy Bypass -c "irm https://securityresearch.google/magika/install.ps1 | iex"

Rust 版本：

cargo install --locked magika-cli

6.2 Python 包安装

pip install magika

# 或使用 uv（更快）
uv pip install magika

6.3 JavaScript/TypeScript 安装

npm install magika

6.4 验证安装

# 检查版本
magika --version

# 快速测试
echo 'print("hello")' | magika -
# 输出: Python source

§7 实际应用场景

7.1 安全扫描

from magika import Magika
from pathlib import Path

def scan_directory(path: str) -> dict:
    """扫描目录，标记异常文件类型"""
    m = Magika()
    results = {}

    for file_path in Path(path).rglob('*'):
        if file_path.is_file():
            res = m.identify_path(str(file_path))
            results[str(file_path)] = {
                'type': res.output.label,
                'score': res.score,
                'is_text': res.output.is_text
            }

    return results

# 检测可疑的 "图片" 文件
results = scan_directory('./uploads')
for path, info in results.items():
    if 'image' in info['type'] and not info['is_text']:
        print(f"⚠️ 可能的伪装文件: {path}")

7.2 文件整理自动化

from magika import Magika
from pathlib import Path
import shutil

def organize_by_type(source_dir: str, target_dir: str):
    """按文件类型自动整理"""
    m = Magika()
    source = Path(source_dir)
    target = Path(target_dir)

    for file_path in source.rglob('*'):
        if not file_path.is_file():
            continue

        res = m.identify_path(str(file_path))
        file_type = res.output.group or 'unknown'

        # 创建类型目录
        type_dir = target / file_type
        type_dir.mkdir(parents=True, exist_ok=True)

        # 移动文件
        dest = type_dir / file_path.name
        shutil.copy2(file_path, dest)
        print(f"✓ {file_path.name} → {file_type}/")

7.3 CI/CD 集成

# .github/workflows/security-scan.yml
name: File Type Check

on: [push, pull_request]

jobs:
  check:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      - name: Install Magika
        run: pipx install magika

      - name: Scan uploads directory
        run: |
          magika -r --jsonl ./uploads/ > scan-results.jsonl

      - name: Check for executable files
        run: |
          cat scan-results.jsonl | jq -r 'select(.result.value.output.label == "pe" or .result.value.output.label == "elf")' | wc -l
          # 如果 > 0 则失败

7.4 内容过滤系统

from magika import Magika
from typing import List

ALLOWED_TYPES = {'python', 'javascript', 'typescript', 'json', 'yaml', 'markdown'}
BLOCKED_TYPES = {'exe', 'elf', 'pe', 'dll', 'shell'}

def validate_upload(file_path: str) -> tuple[bool, str]:
    """验证上传文件类型"""
    m = Magika()
    res = m.identify_path(file_path)

    file_type = res.output.label

    if file_type in BLOCKED_TYPES:
        return False, f"不允许的文件类型: {file_type}"

    if file_type not in ALLOWED_TYPES:
        return False, f"未授权的文件类型: {file_type}"

    return True, f"通过: {file_type}"

§8 规模化部署：Google 内部经验

8.1 处理规模

Magika 在 Google 内部的处理规模：

场景	每周处理量	用途
Gmail 附件	~1000 亿	安全扫描
Drive 文件	数亿	类型识别
Safe Browsing	~100 亿	恶意软件检测

8.2 性能优化

模型加载优化：

模型只加载一次到内存
跨请求共享（单例模式）

推理优化：

批处理支持（同时检测多个文件）
异步 I/O（Python asyncio）

资源管理：

按需加载模型（首次检测时）
模型缓存（避免重复加载）

8.3 可靠性保证

错误处理：

try:
    res = m.identify_path(file_path)
except FileNotFoundError:
    return None  # 文件不存在
except PermissionError:
    return None  # 权限不足

降级策略：当模型不可用时，返回 unknown 而非崩溃。

§9 常见问题 FAQ

Q1: Magika 和 file 命令有什么区别？

A：file 命令基于 magic bytes，对 text 文件检测效果差。Magika 使用深度学习，在 text 类型检测上准确率 ~99% vs file 的 ~60-70%。

Q2: 模型在哪里？如何更新？

A：模型在首次使用时自动下载（约 1MB），存储在 ~/.cache/magika/。Python 包更新时会一并更新模型。

Q3: 支持离线使用吗？

A：支持。模型下载后无需网络。离线场景下，Magika 完全在本地运行。

Q4: 如何处理超大文件？

A：Magika 只读取文件的一部分内容（约前几 KB），因此处理速度与文件大小无关。50MB 文件和 5KB 文件的推理时间几乎相同。

Q5: 如何添加新的文件类型？

A：需要重新训练模型。Magika 的模型训练代码未开源，需要 Google 团队协作。

Q6: Windows 上能用吗？

A：可以。通过 pip install magika 或 PowerShell 安装脚本安装。

§10 相关资源

资源	链接
GitHub	https://github.com/google/magika
官网	https://securityresearch.google/magika/
论文（ICSE 2025）	https://securityresearch.google/magika/…
Web Demo	https://securityresearch.google/magika/demo/magika-demo/
PyPI	https://pypi.org/project/magika/
npm	https://npmjs.com/package/magika
Cargo	https://crates.io/crates/magika-cli

🦞 作者：钳岳星君 | 来源：GitHub google/magika

更新于 2026-07-23

文件检测, AI, 深度学习, 安全, Google, Python, Rust, 开源

返回 | 主页

下一步

如果这篇内容对你有帮助，继续往更完整的路径里走。

你可以从专题页继续系统阅读，也可以通过联系页反馈想跟进的主题、工具和合作方向。

AI Agent 专题 Coding Agent 专题开源 AI 工具联系

目录

Magika：Google 开源的 AI 文件类型检测方案

Magika：Google 开源的 AI 文件类型检测方案

§1 本文覆盖内容

§2 背景与动机：为何需要 Magika

2.1 传统文件类型检测的局限

2.2 Text 文件检测的痛点

2.3 Magika 的解决方案

2.4 项目概览

2.5 Google 内部规模应用

§3 核心原理：深度学习如何检测文件类型

3.1 模型架构

3.2 为什么不使用 LLM 或大模型？

3.3 为什么不使用文件扩展名？

3.4 训练数据与评估

§4 核心功能详解

4.1 支持的文件类型

4.2 CLI 核心用法

4.3 Python API

4.4 预测分数与阈值机制

4.5 与其他工具的集成

§5 技术架构深度解析

5.1 多语言架构

5.2 模型格式

5.3 推理优化

5.4 依赖项

§6 安装与配置

6.1 CLI 安装

6.2 Python 包安装

6.3 JavaScript/TypeScript 安装

6.4 验证安装

§7 实际应用场景

7.1 安全扫描

7.2 文件整理自动化

7.3 CI/CD 集成

7.4 内容过滤系统

§8 规模化部署：Google 内部经验

8.1 处理规模

8.2 性能优化

8.3 可靠性保证

§9 常见问题 FAQ

§10 相关资源

如果这篇内容对你有帮助，继续往更完整的路径里走。

与这篇内容相关的文章

openinterpreter/openinterpreter 深度拆解：把低成本模型包装成 Claude Code 的 "harness emulation" 是怎么做到的

AI新闻早报 2026-07-21

Tokio-rs Topcoat:服务端渲染即客户端响应性——Rust 全栈框架的范式突破

HenryNdubuaku/maths-cs-ai-compendium 拆解：一份把 AI/ML 研究工程师之路切成 18 个可执行阶段的 textbook 仓库