日期
作者
LangChain 团队
LangSmith SaaS

🍐 LangSmith 中的成对评估

日期:
作者: LangChain 团队

对于像文本生成或聊天这样的 LLM 用例(可能没有唯一的“正确”答案),使用成对评估选择首选响应可能是一种有效的方法。

LangSmith 的成对评估让您能够 (1) 使用任何期望的标准定义自定义的成对 LLM 作为评判者的评估器,以及 (2) 使用此评估器比较两个 LLM 生成结果。

  • 阅读博客文章,详细了解成对评估

  • 深入了解我们的视频教程,逐步了解如何在 LangSmith 中使用自定义的成对评估器

  • 查看文档

奖励:需要在您的生产日志上进行回溯测试吗?这个视频展示了成对评估如何帮助您将不同版本的应用程序运行与基准生产应用程序进行比较。

由 LaunchNotes 强力驱动