Grok vient de balayer les charts sur plusieurs plateformes de benchmarking AI.
Le modèle se trouve maintenant en tête de huit classements différents : BlackBox AI, Terminal-Bench Hard, GPQA Diamond, SciCode, AAII Token Usage, Roo Code, KiloCode et Cline. C'est un sans-faute dans certains tests techniques assez exigeants.
Sur OpenRouter, le schéma se poursuit. Grok est actuellement le modèle de langage large le plus populaire pour les requêtes en anglais et il domine les métriques d'utilisation des jetons.
Ces classements couvrent tout, des tâches de codage au raisonnement scientifique, suggérant que le modèle performe de manière cohérente dans différents cas d'utilisation plutôt que d'exceller dans un seul domaine étroit.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
10 J'aime
Récompense
10
9
Reposter
Partager
Commentaire
0/400
EternalMiner
· Il y a 4h
Musk a enfin gagné une fois
Voir l'originalRépondre0
MetaverseMortgage
· Il y a 5h
Les données sont assez réelles.
Voir l'originalRépondre0
HodlOrRegret
· 11-12 07:29
Les grands modèles sont vraiment en train de devenir fous.
Voir l'originalRépondre0
ILCollector
· 11-12 05:58
Très stable, Ma Yilong
Voir l'originalRépondre0
TerraNeverForget
· 11-12 05:52
Musk a encore gagné gros.
Voir l'originalRépondre0
RetroHodler91
· 11-12 05:47
Grok est vraiment puissant
Voir l'originalRépondre0
CommunityWorker
· 11-12 05:45
Elon Musk a encore agi.
Voir l'originalRépondre0
CounterIndicator
· 11-12 05:44
Vous avez peut-être exagéré le battage.
Voir l'originalRépondre0
WhaleStalker
· 11-12 05:38
Elon Musk a vraiment dépassé les limites cette fois-ci
Grok vient de balayer les charts sur plusieurs plateformes de benchmarking AI.
Le modèle se trouve maintenant en tête de huit classements différents : BlackBox AI, Terminal-Bench Hard, GPQA Diamond, SciCode, AAII Token Usage, Roo Code, KiloCode et Cline. C'est un sans-faute dans certains tests techniques assez exigeants.
Sur OpenRouter, le schéma se poursuit. Grok est actuellement le modèle de langage large le plus populaire pour les requêtes en anglais et il domine les métriques d'utilisation des jetons.
Ces classements couvrent tout, des tâches de codage au raisonnement scientifique, suggérant que le modèle performe de manière cohérente dans différents cas d'utilisation plutôt que d'exceller dans un seul domaine étroit.