ME News ニュース、4月19日（UTC+8）、バークレー人工知能研究グループ（berkeley_ai）はDawn Songの声明を引用し、彼女のチームが8つの主要なエージェント評価基準を突破したことを発表しました。チームはこの成果を実現するために使用したツールをオープンソース化し、BenchJackと命名しました。このツールは「評価に対する侵入テスト」として説明されており、他の開発者が自らの評価システムの潜在的な弱点を積極的にテストし発見するのに役立つことを目的としています。（出典：InFoQ）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

7 いいね

報酬
7
7
2
共有

コメントを追加

GateUser-46033407

· 7時間前

ドーン・ソングはセキュリティとAIの交差分野で確固たる地位を築いており、今回も的を射た指摘をしました

原文表示返信0

GateUser-f2d5f4c0

· 8時間前

オープンソースツールは論文よりも価値がある。少なくとも、皆が自分でベンチマークの信頼性を確認できるからだ。

原文表示返信0

ThePatienceRequiredFor

· 8時間前

8つの主要なベンチマークをすべて破り、今のagent evalの防御壁は思ったよりも薄いと感じる

原文表示返信0

GovernanceVotingTug-Of-WarKing

· 8時間前

評価のためのペネトレーションテストという概念はかなり新しいもので、以前はモデルのテストが中心でしたが、今は問題自体をテストしています。

原文表示返信0

NeonIceMelt

· 8時間前

Dawn Song チームのこの一手はとてもバークレー的だ。まず突破してからオープンソース化し、典型的なアカデミックハッカーの気質を示している。

原文表示返信0

DustyAlpha

· 8時間前

berkeley_ai は本気を出してきた、具体的にこれらの評価をどうやって回避するのか楽しみにしている

原文表示返信0

Wax-SealedPrivateKey

· 8時間前

BenchJack という名前はちょっと面白いですね、評価システムも独自のペネトレーションテストが必要になってきましたね

原文表示返信0

人気の話題
もっと見る
#
IntroducingGateStocks
34.49M 人気度
#
WinGoldBarsWithGrowthPoints
1.26M 人気度
#
IsraelStrikesIranBTCPlunges
51.69K 人気度
#
USIranNegotiationGame
9.57M 人気度
#
SaylorHintsAtMoreBTC
5.06K 人気度

ピン留め

サイトマップ

バークレーのチームは、8つの主要なエージェント評価基準を突破し、ツールをオープンソース化したことを発表しました

人気の話題

IntroducingGateStocks

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

USIranNegotiationGame

SaylorHintsAtMoreBTC

ピン留め