Kokoro Web - 为 Open WebUI 轻松集成 TTS

警告

本教程为社区贡献，不属于 Open WebUI 官方支持。它仅作为如何针对特定用例自定义 Open WebUI 的演示。想要贡献？请查看贡献教程。

什么是 `Kokoro Web`？

Kokoro Web 为强大的 Kokoro-82M 文本转语音 (TTS) 模型提供了一个轻量级、兼容 OpenAI 的 API。它可以与 Open WebUI 无缝集成，通过自然的人声增强您的 AI 对话体验。

🚀 两步集成指南

1. 部署 Kokoro Web API（一条命令）

services:
  kokoro-web:
    image: ghcr.io/eduardolat/kokoro-web:latest
    ports:
      - "3000:3000"
    environment:
      # 将其更改为任何密钥，作为您的 OpenAI 兼容 API 密钥
      - KW_SECRET_API_KEY=your-api-key
    volumes:
      - ./kokoro-cache:/kokoro/cache
    restart: unless-stopped

运行命令：docker compose up -d

2. 连接 Open WebUI（30 秒完成）

在 Open WebUI 中，进入 管理员面板 → 设置 → 音频
进行如下配置：
- 文本转语音引擎： OpenAI
- API 基础 URL： http://localhost:3000/api/v1 （如果使用 Docker：http://host.docker.internal:3000/api/v1）
- API 密钥： your-api-key（来自第 1 步）
- TTS 模型： model_q8f16（尺寸与质量的最佳平衡）
- TTS 声音： af_heart（默认的温暖自然英文声音）。您可以从 Kokoro Web Demo 中将其更改为任何其他声音或配方。

大功告成！您的 Open WebUI 现在已具备 AI 语音能力。

🌍 支持的语言

Kokoro Web 支持 8 种语言，并针对每种语言优化了特定声音：

英语 (美国) - en-us
英语 (英国) - en-gb
日语 - ja
中文 - cmn
西班牙语 - es-419
印地语 - hi
意大利语 - it
葡萄牙语 (巴西) - pt-br

每种语言都有专用声音，以确保最佳的发音和自然的语流。请参阅 GitHub 仓库获取特定语言声音的完整列表，或使用 Kokoro Web Demo 立即预览并创建您自己的自定义声音。

💾 针对各种硬件优化的模型

选择适合您硬件需求的模型：

模型 ID	优化方式	尺寸	适用场景
model_q8f16	混合精度	86 MB	推荐 - 最佳平衡
model_quantized	8 位量化	92.4 MB	CPU 性能良好
model_uint8f16	混合精度	114 MB	中端 CPU 质量更好
model_q4f16	4 位 & fp16 权重	154 MB	质量更高，依然高效
model_fp16	fp16	163 MB	顶级质量
model_uint8	8 位 & 混合	177 MB	平衡选项
model_q4	4 位 matmul	305 MB	高质量选项
model	fp32	326 MB	最高质量（速度较慢）

✨ 安装前试用

访问 Kokoro Web Demo 立即预览所有声音。该演示：

100% 在浏览器中运行 - 无需服务器
永久免费 - 无使用限制或注册要求
零安装 - 只需访问网站即可开始创建
包含所有功能 - 立即测试任何声音或语言

需要更多帮助？

有关其他选项、声音自定义指南和高级设置，请访问 GitHub 仓库。

在 Open WebUI 对话中尽情享受自然的 AI 语音吧！

什么是 Kokoro Web？​

🚀 两步集成指南​

1. 部署 Kokoro Web API（一条命令）​

2. 连接 Open WebUI（30 秒完成）​

🌍 支持的语言​

💾 针对各种硬件优化的模型​

✨ 安装前试用​

需要更多帮助？​