LangSmith上线30多个评估模板,AI代理的质量检测不用再从零写起

robot
摘要生成中
ME News 消息,4 月 17 日(UTC+8),据 动察Beating 监测,AI 代理开发平台 LangChain 旗下的可观测性工具 LangSmith 发布两项更新:评估器模板库和可复用评估器。 评估 AI 代理是否「好用」是目前开发中最耗时的环节之一。代理可能调用了正确的工具但回答格式不对,单轮对话正常但多轮就崩溃,最终答案看似合理但中间步骤检索了错误的文档。开发者需要在单步、完整轨迹、多轮对话、特定工具调用等多个层级分别设置检查点,而每个评估器都要经历写提示词、对照真实数据校准、反复调优的过程,从零开始往往要花数周。 LangSmith 现在提供 30 多个现成模板,覆盖五个类别:安全与防护(提示注入检测、个人信息泄露检查、偏见与毒性)、回答质量(正确性、有用性、语气)、执行轨迹(代理是否走了正确的步骤)、用户行为分析(语言分布、满意度信号)、多模态(语音和图像输出审查)。模板包含已调优的 LLM 评判提示词和基于规则的代码评估器,可直接使用或自定义修改,同时适用于线上监控和离线实验。 可复用评估器则解决组织层面的管理问题:新增的 Evaluators 标签页集中展示工作区内所有评估器,可一键挂载到新项目,更新提示词后全局生效,不用在每个项目中维护重复副本。 上述模板同步开源,随 openevals v0.2.0 发布,新增多模态评估支持。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 8
  • 7
  • 分享
评论
请输入评论内容
请输入评论内容
藤蔓几何学
· 1小时前
轨迹评估这块我之前自己写过类似的,官方方案出来可以迁移了,省维护成本
回复0
GateUser-4bd1cc87
· 3小时前
多层级评估终于有统一方案了,团队里每个人标准不一的问题能缓解不少
回复0
Mempool Drifter
· 3小时前
用户行为分析模板有点意思,终于能系统性地看agent怎么被用的了
回复0
GateUser-5578154d
· 3小时前
一键挂载到新项目这个功能,对我们这种多项目并行的太友好了
回复0
雾谷正面
· 3小时前
安全与防护模板刚需啊,AI代理上线前最担心的就是这块
回复0
海浪撞礁的晨金
· 3小时前
Evaluators标签页这个入口设计得挺直觉,找起来不费劲
回复0
PermissionedFury
· 3小时前
开源openevals v0.2.0好评,社区共建比闭门造车强多了
回复0
GateUser-176c498f
· 3小时前
LangSmith这波更新太实用了,之前写evaluator真是头疼,现在直接套用模板省大事
回复0