LangSmithは評価器テンプレートライブラリと再利用可能な評価器をリリースし、AIエージェントの多層評価作業を簡素化します。テンプレートは安全と防護、回答品質、実行履歴、ユーザー行動分析、マルチモーダルの五つのカテゴリーをカバーし、最適化された評価プロンプトとルール評価器を含み、オンライン監視とオフライン実験に適用可能です。再利用可能な評価器は組織レベルで集中管理でき、新たにEvaluatorsタブを追加し、ワンクリックで新しいプロジェクトにマウント、グローバルにプロンプトを更新可能です。オープンソース化され、openevals v0.2.0とともにリリースされ、マルチモーダルサポートも追加されました。

MeNews

2026-05-21 00:50:03

概要作成中

ME News ニュース、4月17日（UTC+8）、動察Beatingの監視によると、AIエージェント開発プラットフォームのLangChain傘下の可観測性ツールLangSmithが2つのアップデートを発表：評価テンプレートライブラリと再利用可能な評価器。 AIエージェントの「使いやすさ」を評価することは、現在の開発で最も時間のかかる段階の一つです。エージェントが正しいツールを呼び出しても回答フォーマットが正しくない、単一の対話は正常だが複数回の対話になるとクラッシュする、最終的な回答は妥当だが途中のステップで誤ったドキュメントを検索している。開発者は単一ステップ、完全な軌跡、多回対話、特定ツール呼び出しなど複数のレベルでチェックポイントを設定する必要があり、各評価器はプロンプトの作成、実データとの照合、繰り返しの調整を経る必要があり、ゼロから始めると数週間かかることもあります。 LangSmithは現在、30以上の既成テンプレートを提供し、5つのカテゴリをカバーしています：安全と防護（プロンプトインジェクション検出、個人情報漏洩チェック、偏見と毒性）、回答品質（正確性、有用性、トーン）、実行軌跡（エージェントが正しいステップを踏んだか）、ユーザー行動分析（言語分布、満足度信号）、マルチモーダル（音声と画像出力の審査）。テンプレートには調整済みのLLM評価プロンプトとルールベースのコード評価器が含まれ、直接使用またはカスタマイズ可能であり、オンライン監視とオフライン実験の両方に適用できます。再利用可能な評価器は組織レベルの管理問題を解決します：新たに追加されたEvaluatorsタブはワークスペース内のすべての評価器を集中表示し、新規プロジェクトにワンクリックでマウントでき、プロンプトの更新は全体に反映され、各プロジェクトで重複コピーを管理する必要がありません。上記のテンプレートはオープンソース化され、openevals v0.2.0のリリースとともに、多モーダル評価のサポートも追加されました。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

9 いいね

報酬
9
8
7
共有

コメントを追加

VineGeometry

· 2時間前

軌跡評価の部分は以前自分で似たようなものを書いたことがあります。公式の方案が出たら移行できて、保守コストを節約できます。

原文表示返信0

GateUser-4bd1cc87

· 4時間前

多層級評価にやっと統一された方案ができたことで、チーム内の各人の基準の違いによる問題がかなり緩和された。

原文表示返信0

MempoolDrifter

· 4時間前

ユーザー行動分析テンプレートはちょっと面白いですね。ついにエージェントがどのように使われているかを体系的に見ることができるようになりました。

原文表示返信0

GateUser-5578154d

· 4時間前

ワンクリックで新しいプロジェクトにマウントするこの機能は、私たちのように複数のプロジェクトを並行して進める者にとって非常に便利です

原文表示返信0

MistValleyFront

· 4時間前

安全と防護のテンプレートはまさに必要不可欠だ。AIエージェントのリリース前に最も懸念されるのはこの部分だ。

原文表示返信0

MorningGoldAsWavesCrashAgainst

· 4時間前

Evaluatorsタブのこの入り口のデザインはとても直感的で、見つけやすい。

原文表示返信0

PermissionedFury

· 4時間前

オープンソースのopenevals v0.2.0に高評価、コミュニティ共同構築は閉鎖的な開発よりはるかに優れている

原文表示返信0

GateUser-176c498f

· 4時間前

LangSmithのこのアップデートは非常に便利です。以前は評価者を書くのが本当に面倒でしたが、今はテンプレートをそのまま使うだけで大きな手間が省けます。

原文表示返信0

人気の話題
もっと見る
#
TradfiTradingChallenge
211.91K 人気度
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M 人気度
#
IsraelStrikesIranBTCPlunges
48.36K 人気度
#
#DailyPolymarketHotspot
1.01M 人気度
#
SpaceXOfficiallyFilesforIPO
740.51K 人気度

ピン留め

サイトマップ

LangSmithは30以上の評価テンプレートをリリースし、AIエージェントの品質検査をゼロから始める必要がなくなりました

人気の話題

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

ピン留め