✨ 自动补全
Open WebUI 提供 AI 驱动的自动补全功能,在您输入提示词时实时建议文本补全。它就像您聊天输入的“副驾驶(Copilot)”,利用您配置的任务模型帮助您更快地编写提示词。
工作原理
启用后,Open WebUI 会监控您在聊天框中的输入。当您暂停输入时,它会将您 当前的文本发送给一个轻量级的任务模型(Task Model)。该模型会预测接下来可能出现的词语或句子,并以覆盖在输入内容上的“虚线文字”形式显示。
- 接受建议:按
Tab键(或右箭头键)接受建议。 - 拒绝/忽略:只需继续输入即可覆盖建议。
info
性能建议
自动补全功能高度依赖于您的任务模型的响应速度。我们建议使用小型、快速、**非推理(non-reasoning)**模型,以确保建议能瞬间出现。
推荐模型:
- Llama 3.2 (1B 或 3B)
- Qwen 3 (0.6B 或 3B)
- Gemma 3 (1B 或 4B)
- GPT-5 Nano (针对低延迟优化)
请避免为此功能使用“推理”模型(如 o1, o3)或重型思维链(Chain-of-Thought)模型,因为延迟会导致自动补全体验变得迟钝。
配置
自动补全功能由双层系统控制:全局可用性和用户偏好。
1. 全局配置(管理员)
管理员控制服务器上是否提供自动补全功能。
管理面板设置: 进入 管理员设置 > 界面 > 任务模型 并切换 自动补全生成 开关。
2. 用户配置(个人)
即使全局启用了该功能,如果个人用户觉得它会分散注意力,也可以自行关闭。
- 进入 设置 > 界面。
- 切换 自动补全生成 开关。
note
如果管理员在全局禁用了自动补全,用户将无法在其个人设置中启用它。
性能与故障排除
为什么没有出现建议?
- 检查设置:确保在管理员和用户设置中都已启用。
- 任务模型:进入 管理员设置 > 界面 并验证是否已选择 任务模型。如果未选择模型,该功能将无法生成预测。
- 延迟:如果您的任务模型过大或运行在缓慢的硬件上,预测结果可能会到达得太晚而失去作用。请切换到更小的模型。
- 推理模型:确保您没有使用“推理”模型(如 o1 或 o3),因为它们的内部思考过程会产生巨大的延迟,从而破坏实时自动补全。
性能影响
自动补全基本上在您每次暂停输入时(防抖处理后)都会向您的 LLM 发送请求。
- 本地模型:这可能会消耗宿主机大量的 GPU/CPU 资源。
- API 提供商:这将产生大量的 API 调用(尽管通常 Token 数量非常少)。请留意您提供商的频率限制(Rate Limits)(每分钟请求数/RPM 和每分钟 Token 数/TPM),以避免中断。
warning
对于在有限本地硬件上运行的多用户实例,我们建议禁用自动补全,以优先保证实际聊天生成的资源。