日期
作者
LangChain 团队
LangSmith SaaS

🔁 LangSmith 中自改进的 LLM 评估器

日期:
作者: LangChain 团队

使用“LLM 即裁判”是评估 LLM 应用程序输出的常用方法。这涉及到将生成的输出传递给一个单独的 LLM,并要求它判断输出。但是,确保 LLM 即裁判 表现良好需要另一轮提示工程。谁来评估评估者?

LangSmith 通过允许用户更正 LLM 评估器反馈来解决这个问题,这些更正随后作为少量示例存储,用于对齐/改进 LLM 即裁判。无需手动调整提示即可改进未来的评估,确保更准确的测试。

我们的博客中了解更多信息。

由 LaunchNotes 强力驱动