- 日期
- 作者
- LangChain 团队
LangSmith
🍐 LangSmith 中的成对评估
日期:
作者: LangChain 团队
对于诸如文本生成或聊天(可能没有一个“正确”答案)等 LLM 用例,使用成对评估选择首选响应可能是一种有效的方法。
LangSmith 的成对评估允许您(1)使用任何所需标准定义自定义成对 LLM-as-judge 评估器以及(2)使用此评估器比较两个 LLM 生成的内容。
额外内容:需要在生产日志上进行回测?此视频说明成对评估还可以帮助您将不同版本的应用运行情况与基线生产应用进行比较。