使用 vLLM 开始
概览
vLLM 是一个高吞吐量且内存高效的 LLM 推理和落地引擎。由于 vLLM 能够部署 OpenAI 兼容的 API 服务器,因此将其连接到 Open WebUI 非常简单。
步骤 1:设置 vLLM 服务器
确保您的 vLLM 服务器正在运行且可访问。默认情况下,vLLM 将在端口 8000 上启动一个 OpenAI 兼容的服务器。
- API 基础 URL:
http://localhost:8000/v1
有关如何设置 vLLM 服务器的更多详细信息,请参阅 vLLM 官方文档。
步骤 2:在 Open WebUI 中添加 API 连接
- 前往 ⚙️ 管理员设置。
- 导航至 外部连接 > OpenAI > 管理(寻找扳手图标)。
- 点击 ➕ 添加新连接。
- 选择 标准 / 兼容 标签页(如果可用)。
- 填写以下内容:
- API URL:
http://localhost:8000/v1(或您的 vLLM 服务器 URL)- Docker 用户:如果 Open WebUI 在容器中,请使用
http://host.docker.internal:8000/v1。
- Docker 用户:如果 Open WebUI 在容器中,请使用
- API 密钥:
none(如果未配置密钥,则留空)
- API URL:
- 点击 保存。
提示
如果您在 Docker 容器中运行 Open WebUI,请根据您的网络设置,使用 http://host.docker.internal:8000/v1 而不是 localhost。
步骤 3:开始使用模型
从模型选择器中选择 vLLM 服务器上可用的任何模型,然后开始聊天。