Skip to main content

使用 vLLM 开始

概览

vLLM 是一个高吞吐量且内存高效的 LLM 推理和落地引擎。由于 vLLM 能够部署 OpenAI 兼容的 API 服务器,因此将其连接到 Open WebUI 非常简单。


步骤 1:设置 vLLM 服务器

确保您的 vLLM 服务器正在运行且可访问。默认情况下,vLLM 将在端口 8000 上启动一个 OpenAI 兼容的服务器。

  • API 基础 URL: http://localhost:8000/v1

有关如何设置 vLLM 服务器的更多详细信息,请参阅 vLLM 官方文档


步骤 2:在 Open WebUI 中添加 API 连接

  1. 前往 ⚙️ 管理员设置
  2. 导航至 外部连接 > OpenAI > 管理(寻找扳手图标)。
  3. 点击 ➕ 添加新连接
  4. 选择 标准 / 兼容 标签页(如果可用)。
  5. 填写以下内容:
    • API URLhttp://localhost:8000/v1(或您的 vLLM 服务器 URL)
      • Docker 用户:如果 Open WebUI 在容器中,请使用 http://host.docker.internal:8000/v1
    • API 密钥none(如果未配置密钥,则留空)
  6. 点击 保存
提示

如果您在 Docker 容器中运行 Open WebUI,请根据您的网络设置,使用 http://host.docker.internal:8000/v1 而不是 localhost


步骤 3:开始使用模型

从模型选择器中选择 vLLM 服务器上可用的任何模型,然后开始聊天。