LangSmithは30以上の評価テンプレートをリリースし、AIエージェントの品質検査をゼロから書き直す必要がなくなりました

ME News ニュース、4月17日(UTC+8)、動察Beatingの監視によると、AIエージェント開発プラットフォームのLangChain傘下の可観測性ツールLangSmithが2つのアップデートを発表:評価テンプレートライブラリと再利用可能な評価器。 AIエージェントの「使いやすさ」を評価することは、現在の開発で最も時間のかかる段階の一つです。エージェントが正しいツールを呼び出しても回答フォーマットが正しくない、単一の対話は正常だが複数回の対話になると崩壊する、最終的な回答は妥当だが途中のステップで誤ったドキュメントを検索している。開発者は単一ステップ、完全な軌跡、多輪対話、特定ツール呼び出しなど複数のレベルでチェックポイントを設定する必要があり、各評価器はプロンプトの作成、実データとの照合、繰り返しの調整を経る必要があり、ゼロから始めると数週間かかることもあります。 LangSmithは現在、30以上の既成テンプレートを提供し、5つのカテゴリーをカバーしています:安全と防護(プロンプトインジェクション検出、個人情報漏洩チェック、偏見と毒性)、回答品質(正確性、有用性、トーン)、実行軌跡(エージェントが正しいステップを踏んだかどうか)、ユーザー行動分析(言語分布、満足度信号)、マルチモーダル(音声と画像出力の審査)。テンプレートには調整済みのLLM評価プロンプトとルールベースのコード評価器が含まれ、直接使用またはカスタマイズ可能であり、オンライン監視とオフライン実験の両方に適用できます。 再利用可能な評価器は組織レベルの管理問題を解決します:新たに追加されたEvaluatorsタブはワークスペース内のすべての評価器を集中表示し、新規プロジェクトにワンクリックでマウントでき、プロンプトの更新は全体に反映され、各プロジェクトで重複コピーを管理する必要がありません。 上記のテンプレートはオープンソース化され、openevals v0.2.0のリリースとともに、多モーダル評価のサポートも追加されました。 (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 7
  • 11
  • 共有
コメント
コメントを追加
コメントを追加
DegenWithNotebook
· 3時間前
評価器テンプレートライブラリ+再利用可能な評価器、組み合わせは開発効率を高めるための戦略
原文表示返信0
OutsiderOfZhiyuandao
· 3時間前
動察Beatingの監視はかなり迅速で、LangChainエコシステムの動きもますます活発になってきました
原文表示返信0
StargazerInTheWoods
· 4時間前
再利用可能な評価器の設計思想は良いですね、重複して車輪を作るのを避けるために。
原文表示返信0
QuietValidator
· 4時間前
ゼロから数週間 vs 既存のテンプレート、この比較はちょっと胸が痛い
原文表示返信0
AirdropDreamsInAGlassBottle
· 4時間前
多回合の会話の崩壊は本当にリアルだ、やっと真剣に解決してくれる人が現れた
原文表示返信0
Don’tRushToDoubleItYet.
· 4時間前
30以上のテンプレートで何週間分の時間を節約できるか?まずは実際の効果を見てみます。
原文表示返信0
MirrorBallPeeking
· 4時間前
LangSmithのこのアップデートは確かに痛点を突いています。AIエージェントの評価はあまりにも苦痛です。
原文表示返信0