日期
作者
LangChain 团队
LangSmith

🍐 LangSmith 中的成对评估

日期:
作者: LangChain 团队

对于诸如文本生成或聊天(可能没有一个“正确”答案)等 LLM 用例,使用成对评估选择首选响应可能是一种有效的方法。

LangSmith 的成对评估允许您(1)使用任何所需标准定义自定义成对 LLM-as-judge 评估器以及(2)使用此评估器比较两个 LLM 生成的内容。

  • 阅读 博客文章 了解有关成对评估的更多信息

  • 潜入我们的视频教程详解可在 LangSmith 中使用自定义成对评估器示例

  • 查看文档

额外内容:需要在生产日志上进行回测?此视频说明成对评估还可以帮助您将不同版本的应用运行情况与基线生产应用进行比较。

由 LaunchNotes 提供支持