🔁 LangSmith 中自改进的 LLM 评估器

日期： 2024 年 6 月 26 日

作者： LangChain 团队

使用“LLM 即裁判”是评估 LLM 应用程序输出的常用方法。这涉及到将生成的输出传递给一个单独的 LLM，并要求它判断输出。但是，确保 LLM 即裁判表现良好需要另一轮提示工程。谁来评估评估者？

LangSmith 通过允许用户更正 LLM 评估器反馈来解决这个问题，这些更正随后作为少量示例存储，用于对齐/改进 LLM 即裁判。无需手动调整提示即可改进未来的评估，确保更准确的测试。

在我们的博客中了解更多信息。