LangSmithは30以上の評価テンプレートをリリースし、AIエージェントの品質検査をゼロから始める必要がなくなりました

robot
概要作成中
ME News ニュース、4月17日(UTC+8)、動察Beatingの監視によると、AIエージェント開発プラットフォームのLangChain傘下の可観測性ツールLangSmithが2つのアップデートを発表:評価テンプレートライブラリと再利用可能な評価器。 AIエージェントの「使いやすさ」を評価することは、現在の開発で最も時間のかかる段階の一つです。エージェントが正しいツールを呼び出しても回答フォーマットが正しくない、単一の対話は正常だが複数回の対話になるとクラッシュする、最終的な回答は妥当だが途中のステップで誤ったドキュメントを検索している。開発者は単一ステップ、完全な軌跡、多回対話、特定ツール呼び出しなど複数のレベルでチェックポイントを設定する必要があり、各評価器はプロンプトの作成、実データとの照合、繰り返しの調整を経る必要があり、ゼロから始めると数週間かかることもあります。 LangSmithは現在、30以上の既成テンプレートを提供し、5つのカテゴリをカバーしています:安全と防護(プロンプトインジェクション検出、個人情報漏洩チェック、偏見と毒性)、回答品質(正確性、有用性、トーン)、実行軌跡(エージェントが正しいステップを踏んだか)、ユーザー行動分析(言語分布、満足度信号)、マルチモーダル(音声と画像出力の審査)。テンプレートには調整済みのLLM評価プロンプトとルールベースのコード評価器が含まれ、直接使用またはカスタマイズ可能であり、オンライン監視とオフライン実験の両方に適用できます。 再利用可能な評価器は組織レベルの管理問題を解決します:新たに追加されたEvaluatorsタブはワークスペース内のすべての評価器を集中表示し、新規プロジェクトにワンクリックでマウントでき、プロンプトの更新は全体に反映され、各プロジェクトで重複コピーを管理する必要がありません。 上記のテンプレートはオープンソース化され、openevals v0.2.0のリリースとともに、多モーダル評価のサポートも追加されました。 (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 8
  • 7
  • 共有
コメント
コメントを追加
コメントを追加
VineGeometry
· 2時間前
軌跡評価の部分は以前自分で似たようなものを書いたことがあります。公式の方案が出たら移行できて、保守コストを節約できます。
原文表示返信0
GateUser-4bd1cc87
· 4時間前
多層級評価にやっと統一された方案ができたことで、チーム内の各人の基準の違いによる問題がかなり緩和された。
原文表示返信0
MempoolDrifter
· 4時間前
ユーザー行動分析テンプレートはちょっと面白いですね。ついにエージェントがどのように使われているかを体系的に見ることができるようになりました。
原文表示返信0
GateUser-5578154d
· 4時間前
ワンクリックで新しいプロジェクトにマウントするこの機能は、私たちのように複数のプロジェクトを並行して進める者にとって非常に便利です
原文表示返信0
MistValleyFront
· 4時間前
安全と防護のテンプレートはまさに必要不可欠だ。AIエージェントのリリース前に最も懸念されるのはこの部分だ。
原文表示返信0
MorningGoldAsWavesCrashAgainst
· 4時間前
Evaluatorsタブのこの入り口のデザインはとても直感的で、見つけやすい。
原文表示返信0
PermissionedFury
· 4時間前
オープンソースのopenevals v0.2.0に高評価、コミュニティ共同構築は閉鎖的な開発よりはるかに優れている
原文表示返信0
GateUser-176c498f
· 4時間前
LangSmithのこのアップデートは非常に便利です。以前は評価者を書くのが本当に面倒でしたが、今はテンプレートをそのまま使うだけで大きな手間が省けます。
原文表示返信0
  • ピン留め