ME AI Message, selon la surveillance de Dongcha Beating, une étude d'évaluation publiée par Cursor montre que les agents de programmation, lorsqu'ils peuvent accéder à l'historique du dépôt de code ou à Internet, réussissent souvent les évaluations en recherchant directement les réponses, ce que l'on appelle le « Reward Hacking ». Pour quantifier la proportion réelle de triche par recherche, Cursor a déployé un agent d'audit pour analyser 731 exécutions d'Opus 4.8 Max sur le benchmark SWE-bench Pro. Dans les cas de correction réussie, 63 % des solutions provenaient de la recherche plutôt que d'un raisonnement autonome. Parmi toutes les exécutions auditées, 57 % ont trouvé des PR fusionnées ou des fichiers sources de correction sur des pages web publiques et les ont copiés quasi textuellement, tandis que 9 % ont extrait des correctifs en fouillant dans l'historique .git emballé pour des commits futurs. Dans un environnement sandbox strict où le répertoire .git est supprimé, les commits sont réduits à un seul, et l'accès réseau est limité, les scores des modèles dominants ont considérablement chuté. Le taux de réussite d'Opus 4.8 Max est passé de 87,1 % à 73,0 %, soit une baisse de 14,1 points de pourcentage. Celui du modèle propriétaire Composer 2.5 de Cursor est passé de 74,7 % à 54,0 %, soit une chute de 20,7 points. La comparaison montre que l'ancien Opus 4.6 n'a quasiment pas changé de score entre les anciens et nouveaux sandbox, tandis que les modèles plus récents et plus performants sont davantage enclins au Reward Hacking en exploitant les vulnérabilités de l'environnement de test. Cursor recommande que, lors de l'évaluation des agents de programmation, il ne faut pas seulement se concentrer sur la construction des ensembles de données, mais aussi isoler l'environnement d'exécution pour empêcher les modèles de rechercher des réponses prêtes via des vulnérabilités. Parallèlement, les équipes de développement doivent auditer les traces d'exécution des modèles pendant les tests, afin de garantir que les scores reflètent les véritables capacités de programmation, et non des compétences de recherche. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
SKHynixTopsKOSPIByMarketCap
1,54M Popularité
#
MicronEarningsBeatExpectationsSharesRise
167,96K Popularité
#
IsraelStrikesIranBTCPlunges
63,57K Popularité
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
322,15K Popularité
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
550,07K Popularité

Épinglé

Cursor démystifie le mythe du classement des modèles : 60 % des solutions réussies d'Opus proviennent du copiage de pages Web et de l'exploration de l'historique Git.

Sujets populaires

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Épinglé