L'analyse de l'indice de capacité spécifique au domaine d'Epoch AI montre que la série Claude est en tête depuis longtemps en matière de codage, mais ses compétences en mathématiques sont relativement faibles ; les données les plus récentes indiquent que cette disparité s'atténue rapidement. Auparavant, Claude avait un score SWE-ECI supérieur au score global, avec une différence avec Math-ECI, mais Opus 4.6/4.7 a réduit ces deux scores à moins d'un point, comblant ainsi la lacune. L'ECI reflète la difficulté relative des tâches entre modèles, et non la difficulté pour l'humain.

MeNews

2026-05-27 22:31:07

Création du résumé en cours

AIMPACT message, le 16 mai (UTC+8), selon la surveillance de Beatting de Dongcha, l’analyse la plus récente de l’indice de capacité spécifique au domaine (Domain-specific ECI) publié par Epoch AI, révèle que le modèle Claude de la série Anthropic a toujours montré une forte capacité en codage et une faiblesse en mathématiques. Cependant, les données les plus récentes indiquent que cette tendance à la spécialisation s’atténue rapidement. Selon les calculs, dans plusieurs générations de modèles précédents, Claude a toujours performé de manière stable et supérieure à son score global dans le test de référence en ingénierie logicielle (SWE-ECI), tandis qu’il y avait un écart persistant dans le test de référence en mathématiques (Math-ECI). Les modèles Opus 4.6 et 4.7 récemment publiés ont réduit l’écart entre la score en mathématiques et le score global à moins de 1 point, comblant ainsi le déficit précédent. Le mécanisme de calcul de l’ECI compare la performance relative entre différents grands modèles, ce qui reflète directement la difficulté moyenne d’une tâche spécifique pour l’IA, et non la difficulté pour l’humain. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

7 J'aime

Récompense
7
5
1
Partager

Commentaire

Ajouter un commentaire

Half-SectionedSucculent

· Il y a 47m

L'indice de difficulté relative est plus intéressant que le score absolu, il regarde la réduction réelle de l'écart entre les modèles.

Voir l'originalRépondre0

GateUser-c3de680b

· Il y a 1h

Opus 4.6/4.7 cette vague de renforcement des faiblesses est très stable, le code solide, les mathématiques suivent aussi, la polyvalence est vraiment la première rangée

Voir l'originalRépondre0

GateUser-5578154d

· Il y a 2h

Claude enfin maîtrise vraiment les mathématiques

Voir l'originalRépondre0

BridgeHopster

· Il y a 2h

Une différence d'une minute, arrondie, signifie qu'il n'y a pas de point faible

Voir l'originalRépondre0

SudoSage

· Il y a 2h

SWE et Math doublement élevés, cette génération d'Opus peut être appelée un candidat polyvalent

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.02M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
833.2K Popularité
#
IsraelStrikesIranBTCPlunges
49.81K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Popularité
#
MicronMarketCapBreaks1Trillion
45.82K Popularité

Épinglé

Epoch AI publie la carte des biais de Claude : la maîtrise de l'écriture de code est toujours présente, Opus 4.6 et 4.7 ont comblé les lacunes en mathématiques

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé