- 日期
- 作者
- LangChain 团队
LangSmith SaaS
🍐 LangSmith 中的成对评估
日期:
作者: LangChain 团队
对于像文本生成或聊天这样的 LLM 用例(可能没有唯一的“正确”答案),使用成对评估选择首选响应可能是一种有效的方法。

LangSmith 的成对评估让您能够 (1) 使用任何期望的标准定义自定义的成对 LLM 作为评判者的评估器,以及 (2) 使用此评估器比较两个 LLM 生成结果。
奖励:需要在您的生产日志上进行回溯测试吗?这个视频展示了成对评估如何帮助您将不同版本的应用程序运行与基准生产应用程序进行比较。