ME News メッセージ、4月17日(UTC+8)、動察Beating監測によると、AIエージェント開発プラットフォームLangChain傘下の可観測性ツールLangSmithが2つのアップデートを発表:評価テンプレートライブラリと再利用可能な評価器。AIエージェントの「使いやすさ」を評価することは、現在開発中で最も時間のかかる作業の一つです。エージェントは正しいツールを呼び出しても回答フォーマットが正しくない場合や、単一の対話は正常だが複数回の対話になるとクラッシュする場合、最終的な回答は合理的に見えるが途中のステップで誤ったドキュメントを検索している場合などがあります。開発者は単一ステップ、完全な軌跡、多回対話、特定のツール呼び出しなど複数のレベルでチェックポイントを設定する必要があり、各評価器はプロンプトの作成、実データとの照合、繰り返しの調整を経る必要があります。ゼロから始めると数週間かかることもあります。LangSmithは現在、30以上の既成テンプレートを提供しており、五つのカテゴリーをカバーしています。
AIエージェントのリリース前の悪夢の段階が、ついにツールリンクによって一部管理されるようになった