目录

RAG-Anything:港大开源的全能多模态 RAG 框架,一站式处理文本/图片/表格/公式

RAG-Anything:港大开源的全能多模态 RAG 框架,一站式处理文本/图片/表格/公式

传统 RAG 系统只能处理纯文本,遇到图片、表格、公式就傻眼了。现代文档越来越多元——论文里有图表,金融报告里有数据表格,产品手册里有公式——传统 text-focused RAG 根本处理不了。

RAG-Anything 解决这个问题。

GitHub 18.7k stars,香港大学 MMLab 开发,基于 LightRAG,构建了一个端到端多模态文档处理 RAG 系统,统一处理文本、图片、表格、公式、图表,通过单一界面查询。PyPI 一行安装,MIT 协议。


一、核心问题:为什么现有 RAG 处理不了多模态文档

现代文档的多模态内容包括:

  • 文本:正文、标题、列表
  • 视觉元素:照片、插图、图表
  • 结构化数据:表格、数据矩阵
  • 数学公式:LaTeX 格式的公式和推导

现有方案的问题:

  • Text-only RAG:只能索引文本,图片/表格内容完全丢失
  • 专用工具拼接:需要多种工具组合,流程复杂,数据割裂
  • 跨模态理解弱:无法建立文本和图片之间的语义关联

RAG-Anything 的解题思路:用一个统一框架处理所有模态,构建跨模态知识图谱。


二、系统架构:五阶段多模态管道

文档解析 → 内容分析 → 多模态知识图谱 → 检索 → 查询应答

阶段 1:文档解析(Document Parsing)

MinerU 集成:利用 MinerU 做高保真文档结构提取,保留复杂版面的语义。

自适应内容分解

  • 自动将文档分割为连贯的文本块、视觉元素、结构化表格、数学公式
  • 保留上下文关系

通用格式支持:PDF、Office 文档(DOC/DOCX/PPT/PPTX/XLS/XLSX)、图片,以及更多格式。

阶段 2:多模态内容理解与处理

自主内容分类与路由:自动识别内容类型,通过优化通道路由。

并发多管道架构:文本和图片通过独立处理管道并发执行,最大化吞吐量,同时保证内容完整性。

文档层级提取:提取并保留原始文档层级和元素间关系。

阶段 3:多模态分析引擎

视觉内容分析器

  • 集成视觉模型进行图像分析
  • 基于视觉语义生成上下文感知的描述性标题
  • 提取视觉元素间的空间关系和层级结构

结构化数据解释器

  • 对表格和结构化数据格式进行系统性解释
  • 实现数据趋势分析的统计模式识别算法
  • 识别跨多个表格数据集的语义关系和依赖

数学表达式解析器

  • 高精度解析复杂数学表达式
  • 提供原生 LaTeX 格式支持,兼容学术工作流
  • 建立数学方程与领域知识库之间的概念映射

可扩展模态处理器

  • 通过插件架构支持自定义和新出现内容类型的动态集成
  • 支持运行时配置处理管道

阶段 4:多模态知识图谱索引

跨模态实体提取:将重要的多模态元素转换为结构化知识图谱实体,包含语义注释和元数据保留。

跨模态关系映射:建立文本实体与多模态组件之间的语义连接,通过自动化关系推理算法实现。

层级结构保留:通过 “belongs_to” 关系链维护原始文档组织,保留逻辑内容层级和节级依赖。

加权关系评分:基于语义接近度和上下文显著性为关系类型分配定量相关性评分。

阶段 5:模态感知检索

向量-图融合:将向量相似度搜索与图遍历算法结合,利用语义嵌入和结构关系进行综合内容检索。

模态感知排名:实现基于内容类型相关性的自适应评分机制,根据查询特定的模态偏好调整排名。

关系一致性维护:维护检索元素之间的语义和结构关系,确保连贯的信息传递和上下文完整性。


三、核心特性

特性说明
端到端多模态管道从文档摄取解析到智能多模态查询应答的完整工作流
通用文档支持PDF、Office文档、图片等格式的无缝处理
专用内容分析器图片、表格、数学公式的专用处理器
多模态知识图谱自动实体提取和跨模态关系发现
自适应处理模式灵活的 MinerU 解析或直接多模态内容注入
混合智能检索跨文本和多模态内容的高级搜索能力

四、快速开始

安装(PyPI)

# 基础安装
pip install raganything

# 含所有可选依赖(支持所有格式)
pip install 'raganything[all]'

# 仅图片格式支持(BMP, TIFF, GIF, WebP)
pip install 'raganything[image]'

# 仅文本文件支持(TXT, MD)
pip install 'raganything[text]'

从源码安装

git clone https://github.com/HKUDS/RAG-Anything.git
cd RAG-Anything
uv sync --all-extras

# 运行示例
uv run python examples/raganything_example.py --help

VLM 增强查询模式

当文档包含图片时,系统无缝将图片集成到 VLM(视觉语言模型)进行高级多模态分析,结合视觉和文本上下文获得更深入的洞察。


五、与传统 RAG 的对比

对比传统 RAGRAG-Anything
处理内容仅文本文本 + 图片 + 表格 + 公式
知识组织扁平向量索引多模态知识图谱
跨模态理解有(实体链接 + 关系映射)
检索方式纯向量相似度向量 + 图遍历融合
适用文档简单文本文档论文、金融报告、技术文档等富媒体文档

六、技术基础:LightRAG

RAG-Anything 基于 LightRAG,由港大 MMLab 开发的一个轻量级 RAG 框架,支持:

  • 增量更新和高效索引
  • 快速响应
  • 开放AI兼容接口

LightRAG 本身也是一个 13k+ stars 的开源项目,RAG-Anything 在其基础上扩展了完整的多模态处理能力。


七、适用场景

  • 学术研究:处理含图表、公式的科研论文
  • 金融分析:分析含大量表格和图形的财务报告
  • 技术文档:处理产品手册、技术规格文档
  • 企业知识管理:管理富媒体的内部知识库

八、总结

RAG-Anything 解决的是现代文档的多模态处理需求——当文档里既有文本又有图片、表格、公式时,传统 RAG 只能处理文本部分,信息大量丢失。

港大 MMLab 基于 LightRAG 构建的端到端多模态管道,从文档解析、内容分析、知识图谱构建到检索,一站式完成。18.7k stars 的社区认可,加上 MIT 协议和 PyPI 一键安装,是目前最完整的多模态 RAG 开源方案之一。

相关链接:

  • GitHub:https://github.com/HKUDS/RAG-Anything(18.7k stars)
  • 基于 LightRAG:https://github.com/HKUDS/LightRAG
  • 论文:https://arxiv.org/abs/2510.12323

🦞 每日08:00自动更新