Skip to main content

✨ 自动补全

Open WebUI 提供 AI 驱动的自动补全功能,在您输入提示词时实时建议文本补全。它就像您聊天输入的“副驾驶(Copilot)”,利用您配置的任务模型帮助您更快地编写提示词。

工作原理

启用后,Open WebUI 会监控您在聊天框中的输入。当您暂停输入时,它会将您当前的文本发送给一个轻量级的任务模型(Task Model)。该模型会预测接下来可能出现的词语或句子,并以覆盖在输入内容上的“虚线文字”形式显示。

  • 接受建议:按 Tab 键(或 右箭头 键)接受建议。
  • 拒绝/忽略:只需继续输入即可覆盖建议。
info

性能建议

自动补全功能高度依赖于您的任务模型的响应速度。我们建议使用小型、快速、**非推理(non-reasoning)**模型,以确保建议能瞬间出现。

推荐模型:

  • Llama 3.2 (1B 或 3B)
  • Qwen 3 (0.6B 或 3B)
  • Gemma 3 (1B 或 4B)
  • GPT-5 Nano (针对低延迟优化)

请避免为此功能使用“推理”模型(如 o1, o3)或重型思维链(Chain-of-Thought)模型,因为延迟会导致自动补全体验变得迟钝。

配置

自动补全功能由双层系统控制:全局可用性和用户偏好。

1. 全局配置(管理员)

管理员控制服务器上是否提供自动补全功能。

管理面板设置: 进入 管理员设置 > 界面 > 任务模型 并切换 自动补全生成 开关。

2. 用户配置(个人)

即使全局启用了该功能,如果个人用户觉得它会分散注意力,也可以自行关闭。

  • 进入 设置 > 界面
  • 切换 自动补全生成 开关。
note

如果管理员在全局禁用了自动补全,用户将无法在其个人设置中启用它。

性能与故障排除

为什么没有出现建议?

  1. 检查设置:确保在管理员和用户设置中已启用。
  2. 任务模型:进入 管理员设置 > 界面 并验证是否已选择 任务模型。如果未选择模型,该功能将无法生成预测。
  3. 延迟:如果您的任务模型过大或运行在缓慢的硬件上,预测结果可能会到达得太晚而失去作用。请切换到更小的模型。
  4. 推理模型:确保您没有使用“推理”模型(如 o1 或 o3),因为它们的内部思考过程会产生巨大的延迟,从而破坏实时自动补全。

性能影响

自动补全基本上在您每次暂停输入时(防抖处理后)都会向您的 LLM 发送请求。

  • 本地模型:这可能会消耗宿主机大量的 GPU/CPU 资源。
  • API 提供商:这将产生大量的 API 调用(尽管通常 Token 数量非常少)。请留意您提供商的频率限制(Rate Limits)(每分钟请求数/RPM 和每分钟 Token 数/TPM),以避免中断。
warning

对于在有限本地硬件上运行的多用户实例,我们建议禁用自动补全,以优先保证实际聊天生成的资源。