Apache Tika 提取
警告
本教程为社区贡献,不属于 Open WebUI 团队支持范围。它仅作为如何针对特定用例自定义 Open WebUI 的演示。想要贡献?请查看贡献教程。
🪶 Apache Tika 提取
本文档提供了一个将 Apache Tika 集成到 Open WebUI 的分步指南。Apache Tika 是一个内容分析工具包,可用于检测和提取一千多种不同文件类型的元数据和文本内容。所有这些文件类型都可以通过单一接口进行解析,这使得 Tika 在搜索引擎索引、内容分析、翻译等方面非常有用。
前提条件
- Open WebUI 实例
- 系统中已安装 Docker
- 为 Open WebUI 设置了 Docker 网络
集成步骤
第 1 步:为 Apache Tika 创建 Docker Compose 文件或运行 Docker 命令
您有两种方式运行 Apache Tika:
选项 1:使用 Docker Compose
在 Open WebUI 实例所在的目录中创建一个名为 docker-compose.yml 的新文件。将以下配置添加到文件中:
services:
tika:
image: apache/tika:latest-full
container_name: tika
ports:
- "9998:9998"
restart: unless-stopped
使用以下命令运行 Docker Compose 文件:
docker-compose up -d
选项 2:使用 Docker Run 命令
或者,您可以使用以下 Docker 命令运行 Apache Tika:
docker run -d --name tika \
-p 9998:9998 \
--restart unless-stopped \
apache/tika:latest-full
请注意,如果您选择使用 Docker run 命令,且希望将容器运行在与 Open WebUI 实例相同的网络中,则需要指定 --network 标志。