Passé deux jours, j'ai spécifiquement testé avec un projet réel.
Ce n'est pas LeetCode, ni une démo en fichier unique, mais un projet SaaS qui tourne depuis deux ans.
Environ 48 fichiers principaux, architecture hybride front-end et back-end, un projet avec un historique lourd.
La tâche de test était très simple : extraire la logique de vérification des permissions dispersée dans plusieurs modules en une couche intermédiaire unifiée, tout en garantissant la compatibilité avec les anciennes interfaces.
Le plus difficile dans ce genre de tâche n'est pas vraiment d'écrire le code, mais de maintenir le contexte en continu.
Le modèle doit comprendre l'ancienne logique, découvrir les dépendances, modifier plusieurs fichiers, mettre à jour la chaîne d'appels, puis vérifier lui-même s'il a oublié quelque chose.
J'ai soumis le même prompt à Claude Fable 5, Opus 4.8, GPT-5.5 et Gemini 3.1 Pro.
Tout le processus s'est déroulé en mode PK de ZenMux, car cela permet d'observer simultanément la sortie, la latence et la consommation de tokens.
Les résultats sont assez intéressants : GPT-5.5 a été le plus rapide à commencer, mais à partir du 11ème fichier, un décalage évident du contexte est apparu.
Gemini 3.1 Pro est très bon pour expliquer, mais ses propositions de modification sont plutôt conservatrices.
La compréhension de l'architecture par Opus 4.8 reste très forte, mais il a manqué deux vérifications de permissions marginales lors du suivi des dépendances entre modules.
Fable 5 est le seul modèle qui vérifie activement sa propre solution.
Il ne se contente pas de générer un plan de modification, mais liste aussi les risques potentiels, puis re-scanne la chaîne d'appels pour validation.
Il est même arrivé qu'il déclare d'abord que la tâche était terminée, puis réalise qu'il a oublié quelque chose, et inverse sa conclusion pour corriger.
C'est en fait ce qui m'importe le plus, car dans un vrai projet, le coût le plus élevé n'est jamais que le modèle fasse une erreur de code, mais qu'il pense avoir raison alors qu'il a tort.
L'officialité insiste toujours sur la Self Verification de Fable 5.
Je pensais que c'était une simple stratégie marketing, mais après test, cette capacité existe bel et bien, et sa valeur dans des tâches complexes dépasse largement les chiffres de benchmark.
Bien sûr, cela a un coût : Fable 5 a un temps de réponse moyen nettement plus long, parfois on sent qu'il réfléchit.
Pour des tâches simples comme CRUD ou scripts basiques, je ne le choisirais pas.
Mais pour des tâches nécessitant une compréhension continue de dizaines de fichiers et un raisonnement sur de longues chaînes, il m'a vraiment laissé la meilleure impression.
Ma conclusion est simple : Fable 5 n'est pas un générateur de code plus puissant, c'est plutôt un collaborateur d'ingénierie plus fiable.
C'est aussi pour cela que de plus en plus de personnes le considèrent comme un orchestrateur dans le workflow d'agent, plutôt qu'un simple modèle de codage.
Si vous souhaitez reproduire vous-même un test similaire, ZenMux vient d'intégrer Fable 5, et organise une activité de recharge PAYG limitée à une semaine avec bonus.
Rechargez 20 dollars, recevez 10 dollars en cadeau ; rechargez 50 dollars, recevez 30 dollars en cadeau.
Le plus important : pas de limite de RPM, pas de restriction de flux, pas besoin de demander des quotas séparés à différents fournisseurs, un seul compte peut utiliser plus de 200 modèles pour des comparaisons horizontales.
Pour ceux qui veulent vraiment tester la différence entre Fable 5, Opus 4.8 et GPT-5.5, le seuil est vraiment plus accessible.
Lien de l'événement :
Ne manquez pas l'occasion d'expérimenter Claude Fable 5 en premier.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
MyGateTradeStory
41,04K Popularité
#
USMayCPIHitsThreeYearHigh
314,07K Popularité
#
IsraelStrikesIranBTCPlunges
57,21K Popularité
#
USIranConflictEscalates
693,15K Popularité
#
GateLaunchesHongKongStockTrading
786,68K Popularité

Épinglé

Claude Fable 5 到底比 Opus 4.8 强多少？

Sujets populaires

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Épinglé