ME News ニュース、4月19日(UTC+8)、バークレー人工知能研究グループ(berkeley_ai)はDawn Songの声明を引用し、彼女のチームが8つの主要なエージェント評価基準を突破したことを発表しました。チームはこの成果を実現するために使用したツールをオープンソース化し、BenchJackと命名しました。このツールは「評価に対する侵入テスト」として説明されており、他の開発者が自らの評価システムの潜在的な弱点を積極的にテスト・発見するのに役立つことを目的としています。(出典:InFoQ)
バークレーのチームは、8つの主要なエージェント評価基準を突破し、ツールをオープンソース化したことを発表しました
ME News ニュース、4月19日(UTC+8)、バークレー人工知能研究グループ(berkeley_ai)はDawn Songの声明を引用し、彼女のチームが8つの主要なエージェント評価基準を突破したことを発表しました。チームはこの成果を実現するために使用したツールをオープンソース化し、BenchJackと命名しました。このツールは「評価に対する侵入テスト」として説明されており、他の開発者が自らの評価システムの潜在的な弱点を積極的にテスト・発見するのに役立つことを目的としています。(出典:InFoQ)