RAG-Anything：港大开源的全能多模态 RAG 框架，一站式处理文本/图片/表格/公式

TextMatrix 收录于技术笔记

2026-04-27 约 2225 字预计阅读 6 分钟

RAG-Anything：港大开源的全能多模态 RAG 框架，一站式处理文本/图片/表格/公式

传统 RAG 系统只索引文本，图片、表格、公式的内容在索引阶段就丢了。论文里的图表、金融报告里的数据表格、产品手册里的公式——这些模态在 text-focused RAG 里根本不进检索库。

RAG-Anything 的做法是：用一个统一管道把所有模态解析成结构化实体，再建跨模态知识图谱做检索。GitHub 18.7k stars，香港大学 MMLab 开发，基于 LightRAG，MIT 协议，PyPI 一行安装。

一、现有 RAG 处理多模态文档的缺口

现代文档包含四类模态：

文本：正文、标题、列表
视觉元素：照片、插图、图表
结构化数据：表格、数据矩阵
数学公式：LaTeX 格式的公式和推导

现有方案的局限：

Text-only RAG：只索引文本，图片和表格内容在摄取阶段就丢了
专用工具拼接：需要多种工具组合，流程复杂，各模态数据之间没有语义关联
跨模态理解缺失：文本和图片之间没有实体链接，检索时只能各查各的

RAG-Anything 的解法：统一管道处理所有模态，构建跨模态知识图谱。

二、系统架构：五阶段多模态管道

文档解析 → 内容分析 → 多模态知识图谱 → 检索 → 查询应答

阶段 1：文档解析（Document Parsing）

用 MinerU 做文档结构提取，保留复杂版面的语义层级。解析后自动将文档分割为文本块、视觉元素、结构化表格、数学公式，同时保留上下文关系。支持 PDF、Office 文档（DOC/DOCX/PPT/PPTX/XLS/XLSX）、图片等格式。

阶段 2：多模态内容理解与处理

自动识别内容类型并路由到对应处理管道。文本和图片走独立管道并发执行，提取文档层级和元素间关系。

阶段 3：多模态分析引擎

三路分析器并行工作：

视觉内容分析器：调用视觉模型生成图像描述，提取视觉元素间的空间关系和层级结构
结构化数据解释器：对表格做统计模式识别，识别跨表格数据集的语义关系
数学表达式解析器：解析 LaTeX 公式，建立数学方程与领域知识库之间的概念映射

此外提供插件架构，支持自定义内容类型的动态集成。

阶段 4：多模态知识图谱索引

将多模态元素转换为知识图谱实体，附带语义注释和元数据。在文本实体与多模态组件之间建立语义连接（通过关系推理算法）。文档层级通过 “belongs_to” 关系链维护。关系类型带语义接近度评分。

阶段 5：模态感知检索

向量相似度搜索与图遍历算法结合做综合检索。排名时根据查询的模态偏好调整权重，维护检索元素之间的语义和结构关系。

三、主要特性

特性	说明
端到端多模态管道	文档摄取→解析→知识图谱→检索→应答的完整工作流
通用文档支持	PDF、Office 文档、图片等格式
专用内容分析器	图片、表格、数学公式各有独立处理器
多模态知识图谱	自动实体提取和跨模态关系发现
自适应处理模式	MinerU 解析或直接多模态内容注入
混合检索	向量相似度 + 图遍历融合

四、快速开始

安装（PyPI）

# 基础安装
pip install raganything

# 含所有可选依赖（支持所有格式）
pip install 'raganything[all]'

# 仅图片格式支持（BMP, TIFF, GIF, WebP）
pip install 'raganything[image]'

# 仅文本文件支持（TXT, MD）
pip install 'raganything[text]'

从源码安装

git clone https://github.com/HKUDS/RAG-Anything.git
cd RAG-Anything
uv sync --all-extras

# 运行示例
uv run python examples/raganything_example.py --help

VLM 增强查询模式

当文档包含图片时，系统会把图片送入 VLM（视觉语言模型）做多模态分析，结合视觉和文本上下文返回结果。

五、与传统 RAG 的对比

对比	传统 RAG	RAG-Anything
处理内容	仅文本	文本 + 图片 + 表格 + 公式
知识组织	扁平向量索引	多模态知识图谱
跨模态理解	无	有（实体链接 + 关系映射）
检索方式	纯向量相似度	向量 + 图遍历融合
适用文档	简单文本文档	论文、金融报告、技术文档等富媒体文档

六、技术基础：LightRAG

RAG-Anything 基于 LightRAG，由港大 MMLab 开发的一个轻量级 RAG 框架，支持：

增量更新和高效索引
快速响应
开放 AI 兼容接口

LightRAG 本身也是一个 13k+ stars 的开源项目，RAG-Anything 在其基础上扩展了完整的多模态处理能力。

七、适用场景

学术研究：处理含图表、公式的科研论文
金融分析：分析含大量表格和图形的财务报告
技术文档：处理产品手册、技术规格文档
企业知识管理：管理富媒体的内部知识库

八、总结

RAG-Anything 针对的是文档中多模态内容在传统 RAG 里被丢弃的问题。港大 MMLab 基于 LightRAG 构建了从文档解析、内容分析、知识图谱到检索的完整管道，18.7k stars，MIT 协议，PyPI 一键安装。

相关链接：

GitHub：https://github.com/HKUDS/RAG-Anything（18.7k stars）
基于 LightRAG：https://github.com/HKUDS/LightRAG
论文：https://arxiv.org/abs/2510.12323

🦞 每日 08:00 自动更新

更新于 2026-07-21

RAG, 多模态, LightRAG, 港大, 知识图谱, 检索增强生成, Python

返回 | 主页

下一步

如果这篇内容对你有帮助，继续往更完整的路径里走。

你可以从专题页继续系统阅读，也可以通过联系页反馈想跟进的主题、工具和合作方向。

AI Agent 专题 Coding Agent 专题开源 AI 工具联系

目录

RAG-Anything：港大开源的全能多模态 RAG 框架，一站式处理文本/图片/表格/公式

RAG-Anything：港大开源的全能多模态 RAG 框架，一站式处理文本/图片/表格/公式

一、现有 RAG 处理多模态文档的缺口

二、系统架构：五阶段多模态管道

阶段 1：文档解析（Document Parsing）

阶段 2：多模态内容理解与处理

阶段 3：多模态分析引擎

阶段 4：多模态知识图谱索引

阶段 5：模态感知检索

三、主要特性

四、快速开始

安装（PyPI）

从源码安装

VLM 增强查询模式

五、与传统 RAG 的对比

六、技术基础：LightRAG

七、适用场景

八、总结

如果这篇内容对你有帮助，继续往更完整的路径里走。

与这篇内容相关的文章

HKUDS/DeepTutor 拆解：一个 agent-native 的终身个性化辅导工作台是怎么搭起来的

Shubhamsaboo/awesome-llm-apps：可运行的 LLM 应用精选集

Graphify Labs Graphify：把 Claude Code 变成「知识图谱构建器」的本地 RAG 框架

HenryNdubuaku/maths-cs-ai-compendium 拆解：一份把 AI/ML 研究工程师之路切成 18 个可执行阶段的 textbook 仓库