日期
作者
LangChain 团队
v0.9.17
LangSmith SaaS

LangSmith 中用于评估的 Pytest 和 Vitest 集成

日期:
作者: LangChain 团队

评估 (evals) 对于构建可靠、高质量的 LLM 应用程序至关重要。它们确保一致的性能,就像软件工程中的测试一样。随着 LangSmith v0.3.0 的发布,我们很高兴推出 Pytest 和 Vitest/Jest 集成,现在 Python 和 TypeScript SDK 的 beta 版本可用。

为什么 LLM 评估需要测试框架?

如果您已经使用 Pytest 或 Vitest/Jest,这些集成将熟悉的开发者体验 (DX) 与 LangSmith 的可观察性和共享功能相结合。以下是它们提供的功能

  1. 调试变得容易。LangSmith 保存来自您的测试用例的输入、输出和堆栈跟踪,从而简化非确定性 LLM 行为的调试过程。

  2. 超越通过/失败的指标。记录细致的指标并随时间跟踪进度,以确保持续改进,即使硬性通过/失败标准不适用时也是如此。

  3. 轻松协作。在您的团队中共享结果以简化协作,特别是与参与评估和提示的主题专家。

  4. 内置评估函数。使用诸如 expect.edit_distance() 之类的工具来衡量字符串差异,或浏览我们的 API 参考 以获取更多函数。

测试框架 vs. evaluate()

虽然像 OpenAI Evals 和 LangSmith 的 evaluate() 这样的库在数据集上运行良好,但这些集成在以下方面表现出色:

  • 针对特定测试的评估逻辑:为每个测试用例定制评估器,非常适合复杂的、多工具代理。

  • 实时本地反馈:在迭代期间快速调试。

  • CI 管道集成:通过自动测试运行尽早发现回归。

接下来是什么?

敬请期待 GitHub Actions 以简化 CI 工作流程!

现在就试试

阅读我们的博客 以获取更多信息,并查看我们的开发者教程 (Python, TypeScript) 和视频演练。

由 LaunchNotes 提供支持