LangChain 更新日志

注册我们的新闻邮件以保持更新

糟糕！提交表单时出现错误。

日期: 2025年1月22日
作者: LangChain 团队

v0.9.17

LangSmith SaaS

LangSmith 中用于评估的 Pytest 和 Vitest 集成

日期： 2025年1月22日

作者： LangChain 团队

评估 (evals) 对于构建可靠、高质量的 LLM 应用程序至关重要。它们确保一致的性能，就像软件工程中的测试一样。随着 LangSmith v0.3.0 的发布，我们很高兴推出 Pytest 和 Vitest/Jest 集成，现在 Python 和 TypeScript SDK 的 beta 版本可用。

为什么 LLM 评估需要测试框架？

如果您已经使用 Pytest 或 Vitest/Jest，这些集成将熟悉的开发者体验 (DX) 与 LangSmith 的可观察性和共享功能相结合。以下是它们提供的功能

调试变得容易。LangSmith 保存来自您的测试用例的输入、输出和堆栈跟踪，从而简化非确定性 LLM 行为的调试过程。
超越通过/失败的指标。记录细致的指标并随时间跟踪进度，以确保持续改进，即使硬性通过/失败标准不适用时也是如此。
轻松协作。在您的团队中共享结果以简化协作，特别是与参与评估和提示的主题专家。
内置评估函数。使用诸如 expect.edit_distance() 之类的工具来衡量字符串差异，或浏览我们的 API 参考以获取更多函数。

测试框架 vs. `evaluate()`

虽然像 OpenAI Evals 和 LangSmith 的 evaluate() 这样的库在数据集上运行良好，但这些集成在以下方面表现出色：

针对特定测试的评估逻辑：为每个测试用例定制评估器，非常适合复杂的、多工具代理。
实时本地反馈：在迭代期间快速调试。
CI 管道集成：通过自动测试运行尽早发现回归。

接下来是什么？

敬请期待 GitHub Actions 以简化 CI 工作流程！

现在就试试

阅读我们的博客以获取更多信息，并查看我们的开发者教程 (Python, TypeScript) 和视频演练。

由 LaunchNotes 提供支持