Pas de modification de poids, simple réglage de l'API : Poetiq « plugin » permet à Kimi d'augmenter de 29,9 points de pourcentage, la version allégée de Gemini contre-attaque Claude Opus

robot
Création du résumé en cours
AIMPACT message, le 15 mai (UTC+8), selon le suivi de Beating de Dongcha, une équipe de startup de 6 personnes fondée par l'ancien chercheur de Google et DeepMind Shumeet Baluja et Ian Fischer, a annoncé que leur Meta-System a battu le record sur le benchmark de programmation LiveCodeBench Pro. Ce système est un module intelligent purement basé sur un accès API, appelé Harness, qui s'améliore récursivement en extrayant automatiquement l'expérience des tâches. Les tests officiels montrent qu'en ne touchant pas aux poids du modèle ni en effectuant un fine-tuning, ce système a directement amélioré la capacité de code des principaux grands modèles du marché.
Les résultats de test indiquent que cette solution détachée du modèle offre une amélioration particulièrement notable pour les modèles moins performants. Après avoir intégré le système Poetiq, la précision de Kimi K2.6 est passée de 50,0 % à 79,9 %, avec une augmentation de 29,9 points de pourcentage ; le score de Gemini 3.0 Flash, léger, a augmenté de 10 points, surpassant non seulement sa version majeure Gemini 3.1 Pro, mais battant également de manière impressionnante Claude Opus 4.7 et GPT 5.2 High, que Poetiq qualifie de « plus grand et plus cher ».
En termes de performance maximale, GPT 5.5 High, qui avait initialement un score de 89,6 %, a atteint un nouveau sommet de 93,9 % avec l’aide de l’外挂 ; tandis que la version de base Gemini 3.1 Pro, associée à ce module, a obtenu un score de 90,9 %, dépassant directement le modèle de raisonnement le plus puissant de Google, Gemini 3 Deep Think (88,8 %), qui n’a pas encore ouvert son API.
L’équipe Poetiq a déclaré que le fine-tuning traditionnel limite l’amélioration à un seul modèle, alors que leur solution d’外挂 sans couture permet aux entreprises d’éviter les coûts élevés liés au fine-tuning et au déploiement de modèles complets pour améliorer leurs capacités de raisonnement.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
On-ChainSoilAfterTheRain
· Il y a 6h
GPT5.5 High directement 93,9 %, ce mod débridé est plus puissant que la mise à jour officielle
Voir l'originalRépondre0
SlothSignal
· Il y a 6h
Attendez, après avoir installé le mod Gemini3.1 Pro, le score n'est que de 90,9, alors que le 3.0 Flash d'origine ne peut pas rivaliser avec le mod ? Cette comparaison est vraiment ironique.
Voir l'originalRépondre0
ForkItAnyway
· Il y a 6h
Amélioration récursive de soi + plugin API pur, cette idée est trop audacieuse, sans toucher aux poids, elle peut faire passer KimiK2.6 de 50 à 79,9, les entreprises peuvent vraiment économiser une grosse somme d'argent sur le réglage fin.
Voir l'originalRépondre0
VolatilityInATeacup
· Il y a 6h
Kimi a gagné gros cette fois, la montée de 50 à 79,9 est bien plus rapide que leur propre itération
Voir l'originalRépondre0
PaperHandsPro
· Il y a 6h
Les scénarios de déploiement côté entreprise devraient fortement bénéficier de cette approche, sans avoir besoin de stocker des cartes ni de faire du RLHF, l'efficacité pouvant être améliorée directement au niveau de l'API.
Voir l'originalRépondre0
Post-RainReflectionsMarket
· Il y a 6h
Sans toucher aux poids ni effectuer de fine-tuning, en se fiant uniquement à l'extraction basée sur l'expérience et à l'amélioration récursive, cette approche est plutôt intelligente, évitant toute une série de problèmes de conformité et de coûts.
Voir l'originalRépondre0
Frictionless
· Il y a 6h
Poetiq, six personnes ont créé ce genre de Meta-System, c'est impressionnant
Voir l'originalRépondre0
  • Épinglé