ME News メッセージ、4月17日（UTC+8）、動察Beating監測によると、AIエージェント開発プラットフォームLangChain傘下の可観測性ツールLangSmithが2つのアップデートを発表：評価テンプレートライブラリと再利用可能な評価器。AIエージェントの「使いやすさ」を評価することは、現在開発中で最も時間のかかる作業の一つです。エージェントは正しいツールを呼び出しても回答フォーマットが正しくない場合や、単一の対話は正常だが複数回の対話になるとクラッシュする場合、最終的な回答は合理的に見えるが途中のステップで誤ったドキュメントを検索している場合などがあります。開発者は単一ステップ、完全な軌跡、多回対話、特定のツール呼び出しなど複数のレベルでチェックポイントを設定する必要があり、各評価器はプロンプトの作成、実データとの照合、繰り返しの調整を経る必要があります。ゼロから始めると数週間かかることもあります。LangSmithは現在、30以上の既成テンプレートを提供しており、五つのカテゴリーをカバーしています。

MeNews

2026-05-21 02:41:58

ME News ニュース、4月17日（UTC+8）、動察Beatingの監視によると、AIエージェント開発プラットフォームのLangChain傘下の可観測性ツールLangSmithが2つのアップデートを発表：評価テンプレートライブラリと再利用可能な評価器。 AIエージェントの「使いやすさ」を評価することは、現在の開発で最も時間のかかる段階の一つです。エージェントが正しいツールを呼び出しても回答フォーマットが正しくない、単一の対話は正常だが複数回の対話になると崩壊する、最終的な回答は妥当だが途中のステップで誤ったドキュメントを検索している。開発者は単一ステップ、完全な軌跡、多輪対話、特定ツール呼び出しなど複数のレベルでチェックポイントを設定する必要があり、各評価器はプロンプトの作成、実データとの照合、繰り返しの調整を経る必要があり、ゼロから始めると数週間かかることもあります。 LangSmithは現在、30以上の既成テンプレートを提供し、5つのカテゴリーをカバーしています：安全と防護（プロンプトインジェクション検出、個人情報漏洩チェック、偏見と毒性）、回答品質（正確性、有用性、トーン）、実行軌跡（エージェントが正しいステップを踏んだかどうか）、ユーザー行動分析（言語分布、満足度信号）、マルチモーダル（音声と画像出力の審査）。テンプレートには調整済みのLLM評価プロンプトとルールベースのコード評価器が含まれ、直接使用またはカスタマイズ可能であり、オンライン監視とオフライン実験の両方に適用できます。再利用可能な評価器は組織レベルの管理問題を解決します：新たに追加されたEvaluatorsタブはワークスペース内のすべての評価器を集中表示し、新規プロジェクトにワンクリックでマウントでき、プロンプトの更新は全体に反映され、各プロジェクトで重複コピーを管理する必要がありません。上記のテンプレートはオープンソース化され、openevals v0.2.0のリリースとともに、多モーダル評価のサポートも追加されました。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

10 いいね

報酬
10
7
11
共有

コメントを追加

DegenWithNotebook

· 3時間前

評価器テンプレートライブラリ＋再利用可能な評価器、組み合わせは開発効率を高めるための戦略

原文表示返信0

OutsiderOfZhiyuandao

· 3時間前

動察Beatingの監視はかなり迅速で、LangChainエコシステムの動きもますます活発になってきました

原文表示返信0

StargazerInTheWoods

· 4時間前

再利用可能な評価器の設計思想は良いですね、重複して車輪を作るのを避けるために。

原文表示返信0

QuietValidator

· 4時間前

ゼロから数週間 vs 既存のテンプレート、この比較はちょっと胸が痛い

原文表示返信0

AirdropDreamsInAGlassBottle

· 4時間前

多回合の会話の崩壊は本当にリアルだ、やっと真剣に解決してくれる人が現れた

原文表示返信0

Don’tRushToDoubleItYet.

· 4時間前

30以上のテンプレートで何週間分の時間を節約できるか？まずは実際の効果を見てみます。

原文表示返信0

MirrorBallPeeking

· 4時間前

LangSmithのこのアップデートは確かに痛点を突いています。AIエージェントの評価はあまりにも苦痛です。

原文表示返信0

人気の話題
もっと見る
#
TradfiTradingChallenge
215.1K 人気度
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M 人気度
#
IsraelStrikesIranBTCPlunges
48.36K 人気度
#
#DailyPolymarketHotspot
1.01M 人気度
#
SpaceXOfficiallyFilesforIPO
741.57K 人気度

ピン留め

サイトマップ

LangSmithは30以上の評価テンプレートをリリースし、AIエージェントの品質検査をゼロから書き直す必要がなくなりました

人気の話題

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

ピン留め