RAG-Anything:港大开源的全能多模态 RAG 框架,一站式处理文本/图片/表格/公式
posts posts 2026-04-27T01:10:00+08:00RAG-Anything 是港大 MMLab 开发的 All-in-One 多模态 RAG 框架,基于 LightRAG,能一站式处理 PDF、Office文档、图片、表格、数学公式等多模态内容,构建多模态知识图谱,实现跨模态检索。PyPI 一键安装。技术笔记RAG, 多模态, LightRAG, 港大, 知识图谱, 检索增强生成, PythonRAG-Anything:港大开源的全能多模态 RAG 框架,一站式处理文本/图片/表格/公式
传统 RAG 系统只能处理纯文本,遇到图片、表格、公式就傻眼了。现代文档越来越多元——论文里有图表,金融报告里有数据表格,产品手册里有公式——传统 text-focused RAG 根本处理不了。
RAG-Anything 解决这个问题。
GitHub 18.7k stars,香港大学 MMLab 开发,基于 LightRAG,构建了一个端到端多模态文档处理 RAG 系统,统一处理文本、图片、表格、公式、图表,通过单一界面查询。PyPI 一行安装,MIT 协议。
一、核心问题:为什么现有 RAG 处理不了多模态文档
现代文档的多模态内容包括:
- 文本:正文、标题、列表
- 视觉元素:照片、插图、图表
- 结构化数据:表格、数据矩阵
- 数学公式:LaTeX 格式的公式和推导
现有方案的问题:
- Text-only RAG:只能索引文本,图片/表格内容完全丢失
- 专用工具拼接:需要多种工具组合,流程复杂,数据割裂
- 跨模态理解弱:无法建立文本和图片之间的语义关联
RAG-Anything 的解题思路:用一个统一框架处理所有模态,构建跨模态知识图谱。
二、系统架构:五阶段多模态管道
文档解析 → 内容分析 → 多模态知识图谱 → 检索 → 查询应答阶段 1:文档解析(Document Parsing)
MinerU 集成:利用 MinerU 做高保真文档结构提取,保留复杂版面的语义。
自适应内容分解:
- 自动将文档分割为连贯的文本块、视觉元素、结构化表格、数学公式
- 保留上下文关系
通用格式支持:PDF、Office 文档(DOC/DOCX/PPT/PPTX/XLS/XLSX)、图片,以及更多格式。
阶段 2:多模态内容理解与处理
自主内容分类与路由:自动识别内容类型,通过优化通道路由。
并发多管道架构:文本和图片通过独立处理管道并发执行,最大化吞吐量,同时保证内容完整性。
文档层级提取:提取并保留原始文档层级和元素间关系。
阶段 3:多模态分析引擎
视觉内容分析器:
- 集成视觉模型进行图像分析
- 基于视觉语义生成上下文感知的描述性标题
- 提取视觉元素间的空间关系和层级结构
结构化数据解释器:
- 对表格和结构化数据格式进行系统性解释
- 实现数据趋势分析的统计模式识别算法
- 识别跨多个表格数据集的语义关系和依赖
数学表达式解析器:
- 高精度解析复杂数学表达式
- 提供原生 LaTeX 格式支持,兼容学术工作流
- 建立数学方程与领域知识库之间的概念映射
可扩展模态处理器:
- 通过插件架构支持自定义和新出现内容类型的动态集成
- 支持运行时配置处理管道
阶段 4:多模态知识图谱索引
跨模态实体提取:将重要的多模态元素转换为结构化知识图谱实体,包含语义注释和元数据保留。
跨模态关系映射:建立文本实体与多模态组件之间的语义连接,通过自动化关系推理算法实现。
层级结构保留:通过 “belongs_to” 关系链维护原始文档组织,保留逻辑内容层级和节级依赖。
加权关系评分:基于语义接近度和上下文显著性为关系类型分配定量相关性评分。
阶段 5:模态感知检索
向量-图融合:将向量相似度搜索与图遍历算法结合,利用语义嵌入和结构关系进行综合内容检索。
模态感知排名:实现基于内容类型相关性的自适应评分机制,根据查询特定的模态偏好调整排名。
关系一致性维护:维护检索元素之间的语义和结构关系,确保连贯的信息传递和上下文完整性。
三、核心特性
| 特性 | 说明 |
|---|---|
| 端到端多模态管道 | 从文档摄取解析到智能多模态查询应答的完整工作流 |
| 通用文档支持 | PDF、Office文档、图片等格式的无缝处理 |
| 专用内容分析器 | 图片、表格、数学公式的专用处理器 |
| 多模态知识图谱 | 自动实体提取和跨模态关系发现 |
| 自适应处理模式 | 灵活的 MinerU 解析或直接多模态内容注入 |
| 混合智能检索 | 跨文本和多模态内容的高级搜索能力 |
四、快速开始
安装(PyPI)
# 基础安装
pip install raganything
# 含所有可选依赖(支持所有格式)
pip install 'raganything[all]'
# 仅图片格式支持(BMP, TIFF, GIF, WebP)
pip install 'raganything[image]'
# 仅文本文件支持(TXT, MD)
pip install 'raganything[text]'从源码安装
git clone https://github.com/HKUDS/RAG-Anything.git
cd RAG-Anything
uv sync --all-extras
# 运行示例
uv run python examples/raganything_example.py --helpVLM 增强查询模式
当文档包含图片时,系统无缝将图片集成到 VLM(视觉语言模型)进行高级多模态分析,结合视觉和文本上下文获得更深入的洞察。
五、与传统 RAG 的对比
| 对比 | 传统 RAG | RAG-Anything |
|---|---|---|
| 处理内容 | 仅文本 | 文本 + 图片 + 表格 + 公式 |
| 知识组织 | 扁平向量索引 | 多模态知识图谱 |
| 跨模态理解 | 无 | 有(实体链接 + 关系映射) |
| 检索方式 | 纯向量相似度 | 向量 + 图遍历融合 |
| 适用文档 | 简单文本文档 | 论文、金融报告、技术文档等富媒体文档 |
六、技术基础:LightRAG
RAG-Anything 基于 LightRAG,由港大 MMLab 开发的一个轻量级 RAG 框架,支持:
- 增量更新和高效索引
- 快速响应
- 开放AI兼容接口
LightRAG 本身也是一个 13k+ stars 的开源项目,RAG-Anything 在其基础上扩展了完整的多模态处理能力。
七、适用场景
- 学术研究:处理含图表、公式的科研论文
- 金融分析:分析含大量表格和图形的财务报告
- 技术文档:处理产品手册、技术规格文档
- 企业知识管理:管理富媒体的内部知识库
八、总结
RAG-Anything 解决的是现代文档的多模态处理需求——当文档里既有文本又有图片、表格、公式时,传统 RAG 只能处理文本部分,信息大量丢失。
港大 MMLab 基于 LightRAG 构建的端到端多模态管道,从文档解析、内容分析、知识图谱构建到检索,一站式完成。18.7k stars 的社区认可,加上 MIT 协议和 PyPI 一键安装,是目前最完整的多模态 RAG 开源方案之一。
相关链接:
- GitHub:https://github.com/HKUDS/RAG-Anything(18.7k stars)
- 基于 LightRAG:https://github.com/HKUDS/LightRAG
- 论文:https://arxiv.org/abs/2510.12323
🦞 每日08:00自动更新