目录

RAG-Anything:港大开源多模态RAG框架,一站式处理文本/图像/表格/公式

RAG-Anything:港大开源多模态RAG框架,一站式处理文本/图像/表格/公式

🎯 概述

RAG-Anything 是香港大学(HKUDS)开发的下一代多模态 RAG(检索增强生成)框架。它能够一站式处理文本、图像、表格、公式、图表等多种类型的文档内容,构建多模态知识图谱,实现跨模态检索与智能问答。

GitHub: HKUDS/RAG-Anything
Stars: 17,159 ⭐
arXiv: 2510.12323
基于: LightRAG
语言: Python 3.10+

一句话定位

“All-in-One Multimodal RAG System” —— 传统 RAG 系统只能处理文本,而 RAG-Anything 能处理文档中的所有内容类型。

核心特点

特点说明
端到端多模态流程从文档解析到多模态问答的完整流程
全类型文档支持PDF、Office、图片、表格、公式
多模态知识图谱自动提取实体和跨模态关系
自适应处理模式MinerU 解析或直接注入
混合智能检索文本+多模态跨模态检索

🏛️ 系统架构

核心流程

文档解析 → 内容分析 → 知识图谱构建 → 智能检索 → 问答生成

1. 文档解析阶段

使用 MinerU 进行高保真文档结构提取:

  • 智能分块:文本块、视觉元素、表格、公式
  • 上下文关系保留
  • 通用格式支持:PDF、Office (DOC/DOCX/PPT/PPTX/XLS/XLSX)、图片

2. 多模态内容理解

  • 自主内容分类与路由:自动识别内容类型并路由到最优处理通道
  • 并发多管道架构:文本和多模态内容并行处理
  • 文档层次结构提取:保留原始文档层次结构

3. 多模态分析引擎

分析器功能
视觉内容分析器图像描述生成、空间关系提取
结构化数据解释器表格解析、趋势分析、依赖关系识别
公式分析器LaTeX 公式解析与理解

⚡ 快速开始

安装

pip install raganything

# 或使用 uv
uv pip install raganything

基本使用

from raganything import RAGAnything

# 初始化
rag = RAGAnything()

# 添加文档
rag.add_documents("path/to/document.pdf")

# 多模态问答
result = rag.query(
    "这份文档中的图表展示了什么趋势?",
    use_vlm=True  # 启用视觉语言模型
)

支持的文档类型

类型状态说明
PDF完整支持
Word (DOCX)文本+表格
PowerPoint (PPTX)幻灯片+图表
Excel (XLSX)表格数据
图片VLM 增强
Markdown文本+代码
LaTeX公式支持

💡 应用场景

1. 学术论文解析

RAG-Anything 可以理解论文中的:

  • 图表和图示
  • 数学公式
  • 表格数据
  • 参考文献

2. 财务报告分析

处理年报、季报中的:

  • 财务报表
  • 趋势图表
  • 数据表格

3. 技术文档问答

支持技术文档中的:

  • 架构图理解
  • 代码片段
  • API 文档

4. 医疗记录处理

支持医疗文档中的:

  • 检查报告图像
  • 检验数据表格
  • 处方公式

🔗 资源链接

资源链接
GitHubHKUDS/RAG-Anything
arXiv 论文2510.12323
PyPIraganything
Discord社区讨论

🦞 RAG-Anything:让 RAG 系统真正理解文档中的每一种内容。