LangSmith上线30多个评估模板，AI代理的质量检测不用再从零写起

2026-05-21 02:41:58

ME News 消息，4 月 17 日（UTC+8），据动察Beating 监测，AI 代理开发平台 LangChain 旗下的可观测性工具 LangSmith 发布两项更新：评估器模板库和可复用评估器。评估 AI 代理是否「好用」是目前开发中最耗时的环节之一。代理可能调用了正确的工具但回答格式不对，单轮对话正常但多轮就崩溃，最终答案看似合理但中间步骤检索了错误的文档。开发者需要在单步、完整轨迹、多轮对话、特定工具调用等多个层级分别设置检查点，而每个评估器都要经历写提示词、对照真实数据校准、反复调优的过程，从零开始往往要花数周。 LangSmith 现在提供 30 多个现成模板，覆盖五个类别：安全与防护（提示注入检测、个人信息泄露检查、偏见与毒性）、回答质量（正确性、有用性、语气）、执行轨迹（代理是否走了正确的步骤）、用户行为分析（语言分布、满意度信号）、多模态（语音和图像输出审查）。模板包含已调优的 LLM 评判提示词和基于规则的代码评估器，可直接使用或自定义修改，同时适用于线上监控和离线实验。可复用评估器则解决组织层面的管理问题：新增的 Evaluators 标签页集中展示工作区内所有评估器，可一键挂载到新项目，更新提示词后全局生效，不用在每个项目中维护重复副本。上述模板同步开源，随 openevals v0.2.0 发布，新增多模态评估支持。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

10人点赞了这条动态

赞赏
10
7
11
分享

请输入评论内容

DegenWithNotebook

· 2小时前

评估器模板库+可复用评估器，组合拳打的是开发效率

纸鸢DAO边缘人

· 3小时前

动察Beating的监测挺快，LangChain生态动作越来越密了

林间观星者

· 3小时前

可复用评估器这个设计思路不错，避免重复造轮子

QuietValidator

· 3小时前

从0开始数周vs现成模板，这对比有点扎心

玻璃瓶里的空投梦

· 3小时前

多轮对话崩溃这个太真实了，终于有人正经解决

翻倍先别急

· 3小时前

30多个模板能省几周时间？我先观望下实际效果

镜面球偷看

· 3小时前

LangSmith这波更新确实踩中痛点，做AI代理评估太折磨了

热门话题
查看更多
#
TradFi交易分享挑战
21.32万热度
#
灰度购入超51万HYPE并质押
890.8万热度
#
Polymarket每日热点
101.31万热度
#
SpaceX正式提交IPO申请
74.11万热度
#
Gate广场披萨节
57.42万热度

LangSmith上线30多个评估模板，AI代理的质量检测不用再从零写起

热门话题

TradFi交易分享挑战

灰度购入超51万HYPE并质押

Polymarket每日热点

SpaceX正式提交IPO申请

Gate广场披萨节

置顶