日期 2024 年 6 月 26 日 作者 LangChain 团队 LangSmith SaaS 🔁 LangSmith 中自改进的 LLM 评估器 日期: 2024 年 6 月 26 日 作者: LangChain 团队 使用“LLM 即裁判”是评估 LLM 应用程序输出的常用方法。这涉及到将生成的输出传递给一个单独的 LLM,并要求它判断输出。但是,确保 LLM 即裁判 表现良好需要另一轮提示工程。谁来评估评估者? LangSmith 通过允许用户更正 LLM 评估器反馈来解决这个问题,这些更正随后作为少量示例存储,用于对齐/改进 LLM 即裁判。无需手动调整提示即可改进未来的评估,确保更准确的测试。在我们的博客中了解更多信息。 由 LaunchNotes 强力驱动