Skip to main content

使用 vLLM 开始

概览

vLLM 是一个高吞吐量且内存高效的 LLM 推理和落地引擎。由于 vLLM 能够部署 OpenAI 兼容的 API 服务器，因此将其连接到 Open WebUI 非常简单。

步骤 1：设置 vLLM 服务器

确保您的 vLLM 服务器正在运行且可访问。默认情况下，vLLM 将在端口 8000 上启动一个 OpenAI 兼容的服务器。

API 基础 URL： http://localhost:8000/v1

有关如何设置 vLLM 服务器的更多详细信息，请参阅 vLLM 官方文档。

步骤 2：在 Open WebUI 中添加 API 连接

前往 ⚙️ 管理员设置。
导航至 外部连接 > OpenAI > 管理（寻找扳手图标）。
点击 ➕ 添加新连接。
选择 标准 / 兼容 标签页（如果可用）。
填写以下内容：
- API URL：http://localhost:8000/v1（或您的 vLLM 服务器 URL）
  - Docker 用户：如果 Open WebUI 在容器中，请使用 http://host.docker.internal:8000/v1。
- API 密钥：none（如果未配置密钥，则留空）
点击保存。

提示

如果您在 Docker 容器中运行 Open WebUI，请根据您的网络设置，使用 http://host.docker.internal:8000/v1 而不是 localhost。

步骤 3：开始使用模型

从模型选择器中选择 vLLM 服务器上可用的任何模型，然后开始聊天。

概览
步骤 1：设置 vLLM 服务器
步骤 2：在 Open WebUI 中添加 API 连接
步骤 3：开始使用模型