模型评估 (Evaluation)
为什么我应该评估模型?
来见见 Alex,一家中型公司的机器学习工程师。Alex 知道市面上有 很多 AI 模型——GPTs、LLaMA 等等——但哪一个最适合手头的工作呢?它们在纸面上听起来都很棒,但 Alex 不能仅仅依赖公开的排行榜。这些模型的表现因上下文而异,而且有些模型可能是在评估数据集上训练过的(狡猾!)。此外,这些模型写作的方式有时感觉……不太对劲。
这就是 Open WebUI 大显身手的地方。它为 Alex 和他们的团队提供了一种简单的方法,根据其实际需求来评估模型。没有复杂的数学,没有繁重的工作。只需在与模型交互时点赞(thumbs up)或点踩(thumbs down)。
简明摘要 (TL;DR)
- 为什么评估很重要:模型太多,但并非所有都适合您的特定需求。一般的公开排行榜并不总是值得信任。
- 如何解决:Open WebUI 提供了一个内置的评估系统。使用点赞/点踩来评价模型的响应。
- 幕后原理:评分会调整您的个性化排行榜,来自已评分聊天的快照将用于未来的模型微调!
- 评估选项:
- 竞技场模型 (Arena Model):随机选择模型供您比较。
- 常规交互:像平时一样聊天并评价响应。
为什么公开评估还不够?
- 公开排行榜并非针对您 的特定用例量身定制。
- 某些模型在评估数据集上进行过训练,影响了结果的公平性。
- 一个模型可能整体表现良好,但其沟通风格或响应方式不符合您想要的“感觉 (vibe)”。
解决方案:使用 Open WebUI 进行个性化评估
Open WebUI 具有内置的评估功能,让您和您的团队在与模型交互的同时,发现最适合您特定需求的模型。
它是如何工作的?很简单!
- 在聊天过程中,如果您喜欢某个响应,请点赞;如果不喜欢,请点踩。如果该消息有同级消息 (sibling message)(例如重新生成的响应或并排模型比较的一部分),您就在为您的个人排行榜做贡献。
- 排行榜可以在管理面板中轻松访问,帮助您跟踪团队认为哪些模型表现最好。
一个很酷的功能?每当您评价一个响应时,系统都会捕获该对话的快照,这些快照稍后将用于微调模型,甚至为未来的模型训练提供支持。(请注意,此功能仍在开发中!)
评估 AI 模型的两种方法
Open WebUI 提供了两种简单的方法来评估 AI 模型。
1. 竞技场模型 (Arena Model)
竞技场模型从可用模型池中随机选择,确保评估公平且无偏见。这有助于消除手动比较中的一个潜在缺陷:生态效度 (ecological validity) —— 确保您不会有意或无意地偏袒某个模型。
如何使用:
- 从“竞技场模型”选择器中选择一个模型。
- 像平时一样使用它,但现在您处于“竞技场模式”。
为了让您的反馈影响排行榜,您需要所谓的同级消息 (sibling message)。什么是同级消息?同级消息只是由同一个查询生成的任何替代响应(例如消息重新生成,或让多个模型并排生成响应)。通过这种方式,您可以对响应进行面对面 (head-to-head) 的比较。
- 评分技巧:当您点赞一个响应时,另一个将自动被点踩。因此,请留意并仅为您认为真正最好的消息投票!
- 一旦您评价了响应,就可以查看排行榜,了解模型的排名情况。
以下是竞技场模型界面的预览:

需要更深入?您甚至可以复制 Chatbot Arena 风格的设置!

2. 常规交互
如果您不想,无需切换到“竞技场模式”。您可以正常使用 Open WebUI,并像日常操作一样评价 AI 模型的响应。只要您愿意,随时可以对模型响应进行点赞/点踩。然而,如果您希望您的反馈用于排行榜排名,您需要更换模型并与不同的模型交互。这确保了有一个同级响应进行比较 —— 只有两个不同模型之间的比较才会影响排名。
例如,这是您在常规交互中进行评价的方式:

这是一个设置多模型比较(类似于竞技场)的示例:

排行榜 (Leaderboard)
评价后,请查看管理面板下的排行榜 (Leaderboard)。在这里,您可以直观地看到模型的表现,使用 Elo 等级分系统 (Elo rating system)(想想国际象棋排名!)进行排名。您将真实地看到哪些模型在评估过程中表现最为突出。
这是一个排行榜布局示例:

基于主题的重新排名
当您评价聊天时,您可以按主题标记它们,以获得更精细的洞察。如果您在不同的领域工作,例如客户服务、创意写作、技术支持等,这尤其有用。
自动标记
Open WebUI 会尝试根据对话主题自动标记聊天。然而,根据您使用的模型,自动标记功能有时可能会失败或误解对话。当发生这种情况时,最佳做法是手动标记您的聊天,以确保反馈准确。
- 如何手动标记:当您评价一个响应时,您可以根据对话的上下文添加自己的标签。
不要跳过这一步!标记非常强大,因为它允许您根据特定主题对模型重新排名。例如,您可能想看看哪个模型在回答技术支持问题方面表现最好,而哪个在回答一般客户咨询方面表现最好。
以下是重新排名样式的示例: