Pas de modification de poids, simple réglage de l'API : Poetiq « plugin » permet à Kimi d'augmenter de 29,9 points de pourcentage, la version allégée de Gemini contre-attaque Claude Opus

robot
Création du résumé en cours
AIMPACT message, le 15 mai (UTC+8), selon la surveillance de Dongcha Beating, une équipe de startup de 6 personnes fondée par l'ancien chercheur de Google et DeepMind Shumeet Baluja et Ian Fischer, Poetiq, a annoncé que son Meta-System a battu le record sur le benchmark de programmation LiveCodeBench Pro. Ce système est un module intelligent purement basé sur l'accès API, appelé Harness, qui s'améliore de manière récursive en extrayant automatiquement l'expérience des tâches. Les tests officiels montrent qu'en ne touchant pas aux poids du modèle ni en effectuant un fine-tuning, ce système a directement amélioré la capacité de code des principaux grands modèles du marché.
Les résultats de test indiquent que cette solution déconnectée du modèle offre une amélioration particulièrement notable pour les modèles moins performants. Après avoir intégré le système Poetiq, la précision de Kimi K2.6 est passée de 50,0 % à 79,9 %, avec une augmentation de 29,9 points de pourcentage ; le score de Gemini 3.0 Flash, léger, a augmenté de 10 points, surpassant non seulement la version grande de Gemini 3.1 Pro, mais battant également de manière supérieure Claude Opus 4.7 et GPT 5.2 High, que Poetiq qualifie de « plus grand et plus cher ».
En termes de performance maximale, le GPT 5.5 High, qui avait un score de 89,6 %, a atteint un nouveau sommet de 93,9 % avec l’aide de l’外挂 ; tandis que la version de base Gemini 3.1 Pro, associée à ce module, a obtenu un score de 90,9 %, dépassant directement le modèle de raisonnement le plus puissant de Google, Gemini 3 Deep Think (88,8 %), qui n’a pas encore ouvert son API.
L’équipe Poetiq a déclaré que le fine-tuning traditionnel limite l’amélioration à un seul modèle, alors que leur solution d’外挂 sans couture permet aux entreprises d’éviter les coûts extrêmement élevés liés au fine-tuning et au déploiement de modèles complets pour améliorer leurs capacités de raisonnement.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 8
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
SeaSaltAirdropNotes
· Il y a 11h
Une API purement externe peut exploiter pleinement un modèle faible, cette idée est trop audacieuse, les entreprises économisent beaucoup d'argent
Voir l'originalRépondre0
StargazerInTheWoods
· Il y a 11h
Ce Meta-System ressemble à une mise en place d’un cerveau externe pour le modèle, la réutilisation de l’expérience est vraiment impressionnante.
Voir l'originalRépondre0
RugpullTaster
· Il y a 11h
Sans ajustement, atteindre la performance de Deep Think, les petites et moyennes entreprises sont ravies
Voir l'originalRépondre0
TreatEarningsAsSnacks
· Il y a 11h
Une équipe de six personnes bat en brèche un tas de départements de réglage fin de grandes entreprises, satire à son comble
Voir l'originalRépondre0
MarginMoth
· Il y a 12h
Claude Opus4.7 a été dépassé par Flash+ et ses plugins, Anthropic doit réfléchir.
Voir l'originalRépondre0
BridgeSideBanter
· Il y a 12h
L'extraction récursive d'expériences ressemble à un modèle qui écrit lui-même le prompt engineering.
Voir l'originalRépondre0
GovernanceGremlin
· Il y a 12h
Le mod faible devient plus puissant, la démocratisation de la puissance de calcul est-elle vraiment arrivée ?
Voir l'originalRépondre0
FloatingTeacupClub
· Il y a 12h
GPT5.5 High est déjà à 93,9 %, le plafond continue de monter
Voir l'originalRépondre0
  • Épinglé