图解 LangChain 39｜评估：用数据集量化 Agent 和 RAG 的质量

上一篇讲了 Tracing——让单次 run 可见。但 Tracing 只解决「这一次」的问题。整体质量怎么衡量？改了 prompt、换了模型，到底变好还是变差？这需要评估（Evaluation）。

这一篇讲评估：怎么用数据集量化 Agent/RAG 的质量，而不是凭感觉调参。

凭感觉调参的问题

很多人调 LLM 应用是凭感觉：改了 prompt，跑几个例子，感觉「好像好点了」，就上线。这个做法的问题：

凭感觉调参的三个问题

评估要解决的，就是把「调参有没有变好」从感觉变成可量化的数据。

评估的核心思路：准备一个测试数据集，批量跑，量化结果。

评估的核心流程

有了量化指标，「改 prompt 有没有变好」就有了客观依据：改之前跑一次得 75 分，改之后跑一次得 82 分——确实变好了，上线。而不是「感觉好点」。

测试数据集是评估的基础。来源：

数据集来源

最佳实践是以真实问题为主，人工/生成为辅。真实问题反映用户真实问法，最有代表性。

打分是评估的难点。LLM 输出不是简单的对/错，怎么评判？

几种打分方式：

打分方式

最常用的是「LLM 当裁判」——用一个强模型评判你 Agent 的输出。虽然不完美，但能规模化，是当前评估开放性回答的主流方式。

评估的维度不止「答得对不对」：

评估的多维度

一个生产级应用，这几个维度都要评估。光看「答得对」不够——答得对但慢得要命、或瞎编但听着像对的，都不行。

评估不是一次性的，要持续做。每次改动（改 prompt、换模型、加工具），都跑一次评估对比。这形成了一个闭环：

改 → 跑评估 → 看指标 → 决定保留还是回退

评估闭环

这个闭环是 LLM 应用质量能持续提升的基础。没有评估，改动就是瞎调；有评估，改动才有方向、有依据。

这一篇讲了评估：

下一篇讲 Replay 调试——agent 时代的断点调试。

关于十三Tech

我是十三，All in AI Agent 方向的架构师，专注 AI 工程实践。我相信 AI 是程序员的最佳搭档。

如果你想跟完这套「图解 LangChain」，欢迎关注公众号 「十三Tech」。全系列 42 篇，会按认识基础、LangGraph 状态机、Agent 与 middleware、RAG 检索、Tools/MCP/记忆、生产化收束这条线更新。

十三Tech公众号二维码