- 日期
- 作者
- LangChain 团队
v0.9.17
LangSmith SaaS
LangSmith 中用于评估的 Pytest 和 Vitest 集成
日期:
作者: LangChain 团队
评估 (evals) 对于构建可靠、高质量的 LLM 应用程序至关重要。它们确保一致的性能,就像软件工程中的测试一样。随着 LangSmith v0.3.0 的发布,我们很高兴推出 Pytest 和 Vitest/Jest 集成,现在 Python 和 TypeScript SDK 的 beta 版本可用。
为什么 LLM 评估需要测试框架?
如果您已经使用 Pytest 或 Vitest/Jest,这些集成将熟悉的开发者体验 (DX) 与 LangSmith 的可观察性和共享功能相结合。以下是它们提供的功能
调试变得容易。LangSmith 保存来自您的测试用例的输入、输出和堆栈跟踪,从而简化非确定性 LLM 行为的调试过程。
超越通过/失败的指标。记录细致的指标并随时间跟踪进度,以确保持续改进,即使硬性通过/失败标准不适用时也是如此。
轻松协作。在您的团队中共享结果以简化协作,特别是与参与评估和提示的主题专家。
内置评估函数。使用诸如
expect.edit_distance()
之类的工具来衡量字符串差异,或浏览我们的 API 参考 以获取更多函数。
测试框架 vs. evaluate()
虽然像 OpenAI Evals 和 LangSmith 的 evaluate()
这样的库在数据集上运行良好,但这些集成在以下方面表现出色:
针对特定测试的评估逻辑:为每个测试用例定制评估器,非常适合复杂的、多工具代理。
实时本地反馈:在迭代期间快速调试。
CI 管道集成:通过自动测试运行尽早发现回归。
接下来是什么?
敬请期待 GitHub Actions 以简化 CI 工作流程!