Skip to main content

文档提取

Open WebUI 中的文档提取

Open WebUI 提供了强大的文档提取能力,允许您在 RAG(检索增强生成)工作流中处理和分析各种类型的文档。文档提取对于将非结构化的文档内容转换为可供语言模型有效利用的结构化数据至关重要。

什么是文档提取?

文档提取是指自动识别并从各种文件格式中提取文本和数据的过程,这些格式包括:

  • PDF(文本型和扫描型)
  • 包含文本的图像
  • 手写文档
  • 以及更多

通过适当的文档提取,Open WebUI 可以帮助您:

  • 将基于图像的文档转换为可搜索的文本
  • 保留文档结构和布局信息
  • 以结构化格式提取数据以便进一步处理
  • 支持多语言内容识别
临时聊天中的隐私说明

临时聊天模式下,文档提取仅在浏览器中进行,以防止数据被存储或在后端处理。这一严格的隐私措施意味着,某些依赖后端解析器的复杂文件格式(如某些 DOCX 文件)可能无法正确处理。

可用的提取方法

Open WebUI 支持多种文档提取引擎,以满足不同的需求和文档类型。每种提取方法都有其独特的优势,适用于不同的场景。

浏览各可用提取方法的文档,了解如何设置它们并将其有效地应用于您的 Open WebUI 实例。