Poetiq équipe de six personnes Meta-System a rafraîchi le score le plus élevé sur LiveCodeBench Pro. Ce plugin API pur, en utilisant une amélioration récursive autonome pour extraire l'expérience des tâches, sans toucher aux poids ou à l'ajustement fin, peut considérablement améliorer les modèles faibles. Après intégration, KimiK2.6 est passé de 50,0 % à 79,9 %, Gemini3.0 Flash a augmenté de 10 points, dépassant même Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High atteint 93,9 % grâce au plugin, Gemini3.1 Pro associé à 90,9 %, surpassant Gemini3 Deep Think. Les entreprises peuvent améliorer leurs capacités de raisonnement sans coûts élevés d'ajustement fin.

MeNews

2026-05-24 01:02:07

Création du résumé en cours

AIMPACT message, le 15 mai (UTC+8), selon le suivi de Beating de Dongcha, une équipe de startup de 6 personnes fondée par l'ancien chercheur de Google et DeepMind Shumeet Baluja et Ian Fischer, a annoncé que leur Meta-System a battu le record sur le benchmark de programmation LiveCodeBench Pro. Ce système est un module intelligent purement basé sur un accès API, appelé Harness, qui s'améliore récursivement en extrayant automatiquement l'expérience des tâches. Les tests officiels montrent qu'en ne touchant pas aux poids du modèle ni en effectuant un fine-tuning, ce système a directement amélioré la capacité de code des principaux grands modèles du marché.
Les résultats de test indiquent que cette solution détachée du modèle offre une amélioration particulièrement notable pour les modèles moins performants. Après avoir intégré le système Poetiq, la précision de Kimi K2.6 est passée de 50,0 % à 79,9 %, avec une augmentation de 29,9 points de pourcentage ; le score de Gemini 3.0 Flash, léger, a augmenté de 10 points, surpassant non seulement la version grande de Gemini 3.1 Pro, mais battant également de manière impressionnante Claude Opus 4.7 et GPT 5.2 High, que Poetiq qualifie de « plus grand et plus cher ».
En termes de performance maximale, GPT 5.5 High, qui avait un score de 89,6 %, a atteint un nouveau sommet de 93,9 % avec l’aide de l’外挂 ; tandis que la version de base Gemini 3.1 Pro, associée à cet外挂, a obtenu un score de 90,9 %, dépassant directement le modèle de raisonnement le plus puissant de Google, Gemini 3 Deep Think (88,8 %), qui n’a pas encore ouvert son API.
L’équipe Poetiq a déclaré que le fine-tuning traditionnel limite l’amélioration à un seul modèle, alors que leur solution d’外挂 sans couture permet aux entreprises d’éviter les coûts élevés liés au fine-tuning et au déploiement de modèles complets pour améliorer leurs capacités de raisonnement.
(Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

5 J'aime

Récompense
5
7
2
Partager

Commentaire

Ajouter un commentaire

CandleChaser

· Il y a 8h

L'idée d'un modèle faible + des modules complémentaires puissants, signifie-t-elle que le printemps des petits modèles arrive ?

Voir l'originalRépondre0

GateUser-b74aba1c

· Il y a 14h

Une équipe de six personnes surmonte le goulot d'étranglement de l'inférence des grands modèles, l'innovation au niveau de l'API a été sous-estimée pendant trop longtemps

Voir l'originalRépondre0

L2ArbitrageTrader

· Il y a 14h

Poetiq, six personnes ont obtenu cet effet, la configuration de l'équipe mérite d'être étudiée

Voir l'originalRépondre0

CyberBridgeDeepPerspective

· Il y a 14h

GPT5.5 Haute performance à 93,9 %, Gemini3.1 Pro atteint 90,9 %, cette extension est plus puissante que la version native haut de gamme

Voir l'originalRépondre0

GateUser-cbb8cdf5

· Il y a 14h

L'entreprise est folle de joie, elle n'a enfin plus besoin de dépenser de l'argent pour un ajustement fin

Voir l'originalRépondre0

BribeCoffee

· Il y a 14h

Amélioration récursive de soi + extraction d'expérience, l'architecture Meta-System est assez intéressante

Voir l'originalRépondre0

VineGeometry

· Il y a 14h

Une API purement externe sans toucher aux poids peut faire passer Kimi de 50 % à 79 %, cette approche est bien plus intelligente que le réglage fin.

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
344.17K Popularité
#
PlatinumCardCreatorExclusive
126.3K Popularité
#
IsraelStrikesIranBTCPlunges
49.09K Popularité
#
#DailyPolymarketHotspot
1.05M Popularité
#
GateSquarePizzaDay
665.76K Popularité

Épinglé

Pas de modification de poids, simple réglage de l'API : Poetiq « plugin » permet à Kimi d'augmenter de 29,9 points de pourcentage, la version allégée de Gemini contre-attaque Claude Opus

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé