LangSmith上线30多个评估模板，AI代理的质量检测不用再从零写起

ME News · 2026-05-21T00:50:03+00:00

LangSmith 发布评估器模板库与可复用评估器，简化对 AI 代理的多层级评估工作。模板覆盖安全与防护、回答质量、执行轨迹、用户行为分析及多模态五大类别，含优化的评判提示词和规则评估器，适用于线上监控和离线实验。可复用评估器在组织层面集中管理，新增 Evaluators 标签页、一键挂载到新项目、更新提示词全球生效，开源并随 openevals v0.2.0 发布，增添多模态支持。

ME News

2026-05-21 00:50:03

摘要生成中

ME News 消息，4 月 17 日（UTC+8），据动察Beating 监测，AI 代理开发平台 LangChain 旗下的可观测性工具 LangSmith 发布两项更新：评估器模板库和可复用评估器。评估 AI 代理是否「好用」是目前开发中最耗时的环节之一。代理可能调用了正确的工具但回答格式不对，单轮对话正常但多轮就崩溃，最终答案看似合理但中间步骤检索了错误的文档。开发者需要在单步、完整轨迹、多轮对话、特定工具调用等多个层级分别设置检查点，而每个评估器都要经历写提示词、对照真实数据校准、反复调优的过程，从零开始往往要花数周。 LangSmith 现在提供 30 多个现成模板，覆盖五个类别：安全与防护（提示注入检测、个人信息泄露检查、偏见与毒性）、回答质量（正确性、有用性、语气）、执行轨迹（代理是否走了正确的步骤）、用户行为分析（语言分布、满意度信号）、多模态（语音和图像输出审查）。模板包含已调优的 LLM 评判提示词和基于规则的代码评估器，可直接使用或自定义修改，同时适用于线上监控和离线实验。可复用评估器则解决组织层面的管理问题：新增的 Evaluators 标签页集中展示工作区内所有评估器，可一键挂载到新项目，更新提示词后全局生效，不用在每个项目中维护重复副本。上述模板同步开源，随 openevals v0.2.0 发布，新增多模态评估支持。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

9人点赞了这条动态

赞赏
9
8
7
分享

请输入评论内容

藤蔓几何学

· 1小时前

轨迹评估这块我之前自己写过类似的，官方方案出来可以迁移了，省维护成本

GateUser-4bd1cc87

· 3小时前

多层级评估终于有统一方案了，团队里每个人标准不一的问题能缓解不少

Mempool Drifter

· 3小时前

用户行为分析模板有点意思，终于能系统性地看agent怎么被用的了

GateUser-5578154d

· 3小时前

一键挂载到新项目这个功能，对我们这种多项目并行的太友好了

雾谷正面

· 3小时前

安全与防护模板刚需啊，AI代理上线前最担心的就是这块

海浪撞礁的晨金

· 3小时前

Evaluators标签页这个入口设计得挺直觉，找起来不费劲

PermissionedFury

· 3小时前

开源openevals v0.2.0好评，社区共建比闭门造车强多了

GateUser-176c498f

· 3小时前

LangSmith这波更新太实用了，之前写evaluator真是头疼，现在直接套用模板省大事

热门话题
查看更多
#
TradFi交易分享挑战
21.05万热度
#
灰度购入超51万HYPE并质押
889.7万热度
#
Polymarket每日热点
101.15万热度
#
SpaceX正式提交IPO申请
73.41万热度
#
Gate广场披萨节
57.3万热度

LangSmith上线30多个评估模板，AI代理的质量检测不用再从零写起

热门话题

TradFi交易分享挑战

灰度购入超51万HYPE并质押

Polymarket每日热点

SpaceX正式提交IPO申请

Gate广场披萨节

置顶