Epoch AI publie la carte des biais de Claude : la maîtrise de l'écriture de code est toujours présente, Opus 4.6 et 4.7 ont comblé les lacunes en mathématiques

robot
Création du résumé en cours
AIMPACT message, le 16 mai (UTC+8), selon la surveillance de Beatting de Dongcha, l’analyse la plus récente de l’indice de capacité spécifique au domaine (Domain-specific ECI) publié par Epoch AI, révèle que le modèle Claude de la série Anthropic a toujours montré une forte capacité en codage et une faiblesse en mathématiques. Cependant, les données les plus récentes indiquent que cette tendance à la spécialisation s’atténue rapidement. Selon les calculs, dans plusieurs générations de modèles précédents, Claude a toujours performé de manière stable et supérieure à son score global dans le test de référence en ingénierie logicielle (SWE-ECI), tandis qu’il y avait un écart persistant dans le test de référence en mathématiques (Math-ECI). Les modèles Opus 4.6 et 4.7 récemment publiés ont réduit l’écart entre la score en mathématiques et le score global à moins de 1 point, comblant ainsi le déficit précédent. Le mécanisme de calcul de l’ECI compare la performance relative entre différents grands modèles, ce qui reflète directement la difficulté moyenne d’une tâche spécifique pour l’IA, et non la difficulté pour l’humain. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Half-SectionedSucculent
· Il y a 47m
L'indice de difficulté relative est plus intéressant que le score absolu, il regarde la réduction réelle de l'écart entre les modèles.
Voir l'originalRépondre0
GateUser-c3de680b
· Il y a 1h
Opus 4.6/4.7 cette vague de renforcement des faiblesses est très stable, le code solide, les mathématiques suivent aussi, la polyvalence est vraiment la première rangée
Voir l'originalRépondre0
GateUser-5578154d
· Il y a 2h
Claude enfin maîtrise vraiment les mathématiques
Voir l'originalRépondre0
BridgeHopster
· Il y a 2h
Une différence d'une minute, arrondie, signifie qu'il n'y a pas de point faible
Voir l'originalRépondre0
SudoSage
· Il y a 2h
SWE et Math doublement élevés, cette génération d'Opus peut être appelée un candidat polyvalent
Voir l'originalRépondre0