Le dernier modèle K2 Thinking de Kimi vient de pulvériser plusieurs références de l'industrie. Nous parlons ici de véritables avancées en matière de puissance de raisonnement et de compétences en codage.
Les chiffres ? Plutôt fous : - Atteindre 44,9 % sur HLE lorsqu'il est équipé d'outils - Atteint 60,2 % sur BrowseComp - Atteint 71,3 % sur SWE-Bench Vérifié
Ces scores sont importants car ils mesurent la manière dont l'IA gère la résolution de problèmes complexes et les tâches au niveau des agents. Pour quiconque construit dans cet espace, ce type d'avancée pourrait remodeler notre approche des flux de travail de développement automatisés.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
7 J'aime
Récompense
7
4
Reposter
Partager
Commentaire
0/400
GateUser-00be86fc
· 11-08 14:04
Il est temps d'entrer dans le marché.
Voir l'originalRépondre0
LiquidatedThrice
· 11-08 13:46
Les gens, si ça continue, l'IA va me prendre mon boulot.
Voir l'originalRépondre0
AirdropFatigue
· 11-08 13:46
C'est incroyable, mais ça reste moins bon que GPT-4.
Voir l'originalRépondre0
SatoshiLeftOnRead
· 11-08 13:45
bruh... kimi se vante vraiment devant tout le monde
Le dernier modèle K2 Thinking de Kimi vient de pulvériser plusieurs références de l'industrie. Nous parlons ici de véritables avancées en matière de puissance de raisonnement et de compétences en codage.
Les chiffres ? Plutôt fous :
- Atteindre 44,9 % sur HLE lorsqu'il est équipé d'outils
- Atteint 60,2 % sur BrowseComp
- Atteint 71,3 % sur SWE-Bench Vérifié
Ces scores sont importants car ils mesurent la manière dont l'IA gère la résolution de problèmes complexes et les tâches au niveau des agents. Pour quiconque construit dans cet espace, ce type d'avancée pourrait remodeler notre approche des flux de travail de développement automatisés.