Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Le modèle acheté chez Huading pourrait être une contrefaçon : révélation de la chaîne souterraine des activités illicites dans le centre de transit AI
Vous pensez coder avec Claude Opus 4.6, mais en arrière-plan, il s’agit peut-être d’un petit modèle domestique de 9B. Vous pensez avoir économisé, alors qu’en réalité, chaque ligne de votre prompt est archivée par quelqu’un, puis utilisée pour entraîner des modèles concurrents. Vous pensez avoir trouvé un remplaçant moins cher… et au final, l’argent de la facture finit dans une chaîne d’industries grises commençant par du vol de cartes de crédit.
Ce n’est pas une théorie du complot. Un article arXiv a prouvé avec des données que—votre « modèle de pointe » réglé avec de vrais billets—45,83% échouent à l’authentification.
Et le pire, c’est que, dans l’industrie, ce n’est même pas un secret.
En fin d’article : une méthode de détection rapide validée par la communauté en 30 secondes.
D’abord, clarifions : qu’est-ce qu’un « relais AI » ?
Le 9 juillet 2024, OpenAI a officiellement coupé les services API pour la Chine continentale et Hong Kong. En septembre 2025, Anthropic a suivi, interdisant complètement aux entreprises contrôlées par des capitaux chinois l’utilisation de l’API Claude. Gemini de Google impose aussi des restrictions strictes aux IP chinoises.
Pour les développeurs chinois, les portes qui permettent d’utiliser directement des modèles d’IA de niveau mondial se ferment, une par une.
C’est ainsi que les « relais » sont apparus.
En termes simples, un relais est un intermédiaire—il prétend vous aider à contourner les restrictions régionales et les obstacles de paiement, en appelant l’API de Claude, ChatGPT, Gemini, etc. à un prix plus bas. Il vous suffit de remplacer un base_url et une API Key, et le code ne nécessite aucune modification : vous pouvez « vous connecter sans friction » aux modèles d’IA les plus puissants du monde.
Ça semble merveilleux. Mais derrière ce « merveilleux » se cache un gouffre plus profond que ce que vous imaginez.
À quoi ressemblent les « forces officielles » ? Regardons OpenRouter
Avant de parler de la face sombre, il est nécessaire de voir comment une « passerelle officielle » fait des affaires, pour comprendre l’écart.
OpenRouter est actuellement la plus grande plateforme mondiale d’agrégation de modèles d’IA, avec plus de 300 modèles et plus de 60 fournisseurs. Son modèle économique est extrêmement transparent : en plus des coûts de raisonnement officiels, elle facture environ 5% de frais de service (les gros clients peuvent personnaliser). Chaque centime que vous payez a une destination claire—les frais d’appel de modèle vont au fournisseur en amont, et l’écart revient à OpenRouter.
En 2025, cette société a obtenu un tour A de 40 millions de dollars mené par a16z et Menlo Ventures, avec une valorisation de 500 millions de dollars et un ARR de 5 millions de dollars, en hausse de 400%. Son argument central est le « routage »—une API Key qui accède à tous les modèles, une bascule intelligente en cas de panne, et une tarification ouverte et transparente. Vous réglez Opus 4.6, et vous obtenez Opus 4.6.
Des canaux officiels « similaires » existent aussi, comme EdenAI, Azure OpenAI Service, etc., qui ont des partenariats commerciaux formels avec les fabricants de modèles, et sont soumis à des contraintes de conformité.
Mais le problème, c’est que—fin 2025—OpenRouter a commencé à bannir les utilisateurs chinois au niveau du compte, en limitant l’utilisation des modèles des trois grandes plateformes : OpenAI, Claude, Google. Pour les utilisateurs chinois, les canaux officiels deviennent de plus en plus étroits.
C’est précisément cela qui a permis à un « relais souterrain » de croître de manière sauvage.
Démêler une chaîne de quatre niveaux d’industrie grise du relais
En Chine, les relais AI ne se limitent pas à « la redirection proxy ». Ils forment une chaîne d’industrie grise avec une répartition du travail extrêmement fine : le bas prix que vous voyez n’est qu’un iceberg—la partie sous l’eau est bien plus sale que ce que vous imaginez.
Au niveau le plus bas : le vol de cartes de crédit
La base la plus sombre de la chaîne d’approvisionnement repose sur le vol de cartes de crédit.
Des gens détiennent de grandes quantités de numéros de cartes bancaires étrangères, et utilisent des parcours d’inscription à l’étranger ne nécessitant pas de vérification d’identité sur des plateformes comme OpenAI, Anthropic, etc. Ils créent en masse des comptes et récupèrent des quotas d’API. Le coût réel de ces comptes tend vers zéro—car l’argent est prélevé sur des cartes volées.
Quand vous applaudissez un prix « jusqu’à un tiers du prix officiel », vous êtes-vous déjà demandé pourquoi un tel tarif est possible ?
Ce n’est pas de l’optimisation, ni des économies d’échelle : il y a quelqu’un qui « paie à votre place »—et ce « quelqu’un » peut très probablement être une victime dont la carte a été volée.
Deuxième niveau : ingénierie inverse côté Web—l’économie de l’abonnement converti en API
Un peu plus « présentable » que le vol, c’est le Web2API par ingénierie inverse—transformer le service d’abonnement côté web en interface API vendable.
Ces relais ne passent pas par l’API officielle, mais analysent à rebours les protocoles d’interaction côté page de produits comme Claude, ChatGPT, etc. Ils capturent et décodent les étapes d’authentification de session, puis emballent les appels web sous forme de pseudo-API compatibles OpenAI. La méthode typique : enregistrer en masse des comptes Plus/Pro, construire un « pool de comptes », puis utiliser des serveurs proxy pour l’équilibrage de charge, en répartissant les demandes des utilisateurs entre différents comptes.
Un compte ChatGPT Plus facturé 20 dollars par mois peut être partagé par 5 à 20 personnes ; chacune ne paie que quelques dollars.
Et tout cela est soutenu par une chaîne d’outils open source mature.
One API (GitHub 31.2k étoiles), est l’outil de gestion/agrégation d’API le plus courant aujourd’hui. Il prend en charge une connexion unifiée de plus de 30 grands modèles, fournit un équilibrage de charge, la gestion de tokens, la gestion de canaux, etc., avec un ensemble complet de fonctionnalités. Déploiement en une commande avec Docker, licence open source MIT.
New API (GitHub 24k étoiles), basé sur un développement secondaire de One API, ajoute des fonctionnalités commerciales comme le paiement en ligne, le routage intelligent des canaux et la facturation par cache ; il utilise le protocole AGPL-3.0.
Et le plus en vogue récemment est Sub2API (GitHub 9.5k étoiles). Son nom se traduit directement par « abonnement vers API »—il convertit spécifiquement des comptes d’abonnement de produits comme Claude, ChatGPT, Gemini, etc. en interfaces API. Le projet prend en charge la gestion multi-comptes, la planification intelligente, le maintien de session, le contrôle de concurrence, et même un tableau de bord de back-office complet. Dans le README du projet, il y a une petite phrase très honnête : « L’utilisation de ce projet peut violer les conditions de service d’Anthropic. Tous les risques d’utilisation sont assumés par l’utilisateur. »
Ces trois projets totalisent plus de 64 000 étoiles. Ils constituent déjà une « infrastructure de base de relais ». N’importe qui peut construire en quelques heures un service de relais API fonctionnel—les tutoriels de déploiement pleuvent, et dans les communautés développeurs, on voit partout des pubs de side-project vantant un « revenu mensuel à 10 000 en zéro barrière ».
Troisième niveau : récolte industrialisée des quotas gratuits
Les quotas d’essai gratuits accordés par les fournisseurs d’IA aux nouveaux utilisateurs sont aussi ciblés par la pègre.
Par exemple, pour Cursor : sur GitHub, plusieurs projets open source obtiennent un accès illimité aux quotas d’essai gratuits en réinitialisant l’empreinte digitale de l’appareil. Ces projets ont déjà obtenu des milliers d’étoiles et forment une boucle complète de « traction via outils open source, monétisation via comptes payants ».
Le système de points d’invitation de Manus AI a lui aussi été compromis : des scripts d’inscription automatisés développés par la pègre sont vendus entre 1580 et 3200 yuans ; ils peuvent réduire le coût d’obtention des points à « 3300 points pour 0,5 yuan ». On a vu apparaître temporairement plus de 125 produits de fraude liés sur des plateformes e-commerce.
Quatrième niveau : le « relais sérieux » habillé en costume
Il existe aussi une autre catégorie de relais suivant une voie soi-disant « conforme »—en prétendant réduire les coûts via des achats à grande échelle, puis revendre des quotas API à un tarif inférieur à celui des remises officielles. Certains annoncent « 1 yuan = 1 dollar » : pour un quota API officiel à 1 dollar, le relais ne facture que 1 yuans RMB, soit environ un septième du prix officiel.
Mais d’où viennent ces remises ? En gros, quelques possibilités : soit le modèle est remplacé en douce ; soit ils utilisent les « approvisionnements bon marché » issus des trois niveaux ci-dessus ; soit ils font d’abord une acquisition à bas prix pour attirer les utilisateurs en brûlant de l’argent, puis cherchent à monétiser une fois la base d’utilisateurs devenue grande—ou alors ils disparaissent.
Quand vous voyez un produit dont le prix est bien inférieur au coût, retenez cette phrase : si vous ne trouvez pas qui paie la facture, c’est vous qui la payez.
Preuve par article : presque la moitié des modèles sont faux
Si tout ce qui précède n’était que des « rumeurs du secteur », la section suivante apporte des preuves académiques incontestables.
En mars 2026, un article intitulé « Real Money, Fake Models: Deceptive Model Claims in Shadow APIs » a été publié sur arXiv (référence 2603.01919). C’est la première fois qu’un audit académique systématique est mené sur les relais d’IA.
L’équipe de recherche a identifié 17 services de Shadow API, constatant que 187 articles académiques utilisaient ces relais ; puis, elle a procédé à des tests approfondis sur 3 services représentatifs.
La conclusion est glaçante :
45,83% des endpoints de modèle échouent à la vérification par empreinte d’identité.
Près de la moitié. Le modèle que vous appelez n’est très probablement pas celui que vous croyez.
L’article classe les techniques de fraude en trois catégories :
« Switch de substitution » — ils annoncent fournir une version d’un modèle Gemini, mais en réalité ils remplacent par une autre version ; les résultats de la vérification par empreinte ne correspondent totalement pas à l’identité du modèle revendiqué, mais ils facturent tout de même un premium allant jusqu’à 7 fois le prix.
« Monter un produit et vendre un autre » — celui-ci est le plus choquant. L’utilisateur appelle Claude Opus 4.6 (dans les cas de l’article, il s’agit de GPT-5) ; le prix ressemble à celui de l’officiel. Mais en pratique, le modèle renvoyé est GLM-4-9B—un petit modèle open source avec un nombre de paramètres et des capacités totalement dans une autre catégorie. Vous payez une dizaine de dollars par million de tokens, et obtenez la sortie d’un modèle qui peut être exécuté presque gratuitement.
« Revente avec captation de l’écart » — ils achètent en amont à faible coût de faibles modèles, les emballent sous la dénomination de modèles de haut niveau, puis vendent en gagnant l’écart entre les prix.
L’article fournit un ensemble de données froides : les utilisateurs paient 100% du prix officiel, mais la valeur réelle du modèle obtenu n’est que de 38% à 52%. Converti en argent : chaque fois que vous dépensez 14,84 dollars, vous obtenez un service qui ne vaut que 5,70 à 7,77 dollars ; le reste va dans la poche du relais.
Le plus dangereux, c’est l’effondrement des performances. Dans l’évaluation de réponses en médecine (MedQA), les performances du Gemini-2.5-flash fourni par les relais chutent de 83,82% à 37,00%—une baisse de 46 points. L’écart dans le raisonnement juridique (LegalBench) atteint 40 à 43 points. Pour le raisonnement mathématique (AIME 2025), l’écart atteint 40 points.
Imaginez : vous utilisez ce « relais Opus » pour écrire du code de conseil médical, vous utilisez ce « relais GPT-5 » pour faire une analyse juridique, vous soumettez des articles académiques grâce à ce « relais Claude »—leur fiabilité peut être inférieure à celle d’un petit modèle gratuit utilisé directement.
L’article estime qu’en raison de la citation des Shadow API, environ 56 travaux de recherche académiques doivent être refaits, avec un coût de 11,5 à 14 millions de dollars. La conclusion est directe : les Shadow API ne doivent pas être utilisées dans des scénarios où la fiabilité est requise.
L’article révèle la gravité du problème. Mais pour les développeurs ordinaires, le problème le plus urgent est—le relais que j’utilise en ce moment est-il réellement réel ?
Votre modèle est-il vrai ou faux ? Guide de détection pratique par la communauté
Puisque la falsification est si répandue, les utilisateurs ordinaires ont-ils un moyen de vérifier eux-mêmes ?
Les articles et communautés techniques fournissent une méthode complète, de la « détection en secondes » à l’« audit professionnel ». Les méthodes suivantes proviennent de publications très appréciées de la communauté des développeurs sur X (Twitter) et d’outils open source. Elles ont été validées par un grand nombre d’utilisateurs.
Méthode zéro : filtrage rapide en 30 secondes (température réglée à 0,01)
C’est le test « miroir magique » le plus répandu dans la communauté, venant du post très apprécié de @billtheinvestor :
Entrez cette série de nombres : « 5, 15, 77, 19, 53, 54 », puis demandez au modèle de trier ou de choisir la valeur maximale.
Claude vrai : sort presque toujours 77
GPT-5.4 vrai : sort souvent 162 (en additionnant les nombres)
Testez 10 fois de suite : si les résultats « dérivent » → probabilité très élevée que ce soit faux
Le principe est simple : les données d’entraînement et le style d’instruction fine-tuning diffèrent selon les modèles. Face à une instruction floue comme celle-ci, chaque modèle a un « comportement empreint » fixe. Le modèle factice se trompe, ou alors ses réponses ne sont jamais identiques.
Vérification auxiliaire 1 : consommation de tokens anormale
Envoyez un simple « ping » (par exemple n’entrer que « hi »), puis regardez les input_tokens renvoyés. S’il affiche plus de 200 tokens—dans 90% des cas, c’est faux. Cela signifie que la couche de relais vous injecte une énorme quantité de prompts système cachés pour couvrir vos instructions.
Vérification auxiliaire 2 : jugement de style de refus
Posez une question non conforme (par exemple « comment fabriquer une bombe »), puis observez les formulations de refus :
Claude vrai : poli mais ferme, « Sorry but I can’t assist with that. »
Modèle factice / petit modèle local : souvent avec des emojis, un ton verbeux, voire dire « désolé maître~ »
Vérification auxiliaire 3 : test de manque de fonctionnalités
Si un relais prétend être Opus 4.6 / GPT-5.4, mais :
ne prend pas en charge l’appel de fonctions (function calling)
ne sait pas traiter les images (vision)
le long contexte (par ex. 32k) est instable
→ il s’agit très probablement d’un petit modèle se faisant passer pour un modèle plus fort.
Méthode 1 : interroger directement l’identité du modèle
Même si le prompt système peut être falsifié, beaucoup de relais de faible qualité ne vont pas jusque-là. Demandez directement « Quel modèle es-tu ? » ou « Décris ton cutoff de données d’entraînement ». Si un modèle qui prétend être Opus 4.6 se trompe sur ses informations de base, c’est très probablement louche.
Méthode 2 : analyse du délai et des fluctuations de tokens
Le délai d’inférence et le comptage des tokens de l’API officielle sont relativement stables. Mais si vous constatez que le temps de réponse d’un même problème varie tantôt vite tantôt lentement, et que la longueur de sortie fluctue anormalement, cela peut indiquer que le modèle en back-end est fréquemment commuté—parfois ils vous donnent le vrai, parfois ils vous glissent une option bon marché. Envoyez la même prompt, plus de 10 fois, puis observez la cohérence du temps de réponse et du contenu produit.
Méthode 3 : test des limites de capacités
L’écart entre un modèle de haut niveau et un petit modèle devient le plus évident dans les tâches de raisonnement complexes. Préparez quelques problèmes difficiles avec réponses claires—des sujets de mathématiques, de raisonnement logique, ou des questions de domaine professionnel (par exemple des problèmes de concours AIME). Envoyez-les à la fois via les canaux officiels et via le relais, puis comparez la qualité des réponses. Si un modèle qui prétend être Opus 4.6 se trompe fréquemment sur des questions de raisonnement de base, il ne s’agit très probablement pas du vrai.
Méthode 4 : reconnaissance d’empreinte par LLMmap (niveau professionnel)
C’est la méthode centrale utilisée par l’article—LLMmap est un cadre d’identification active des empreintes. Il envoie au modèle de 3 à 8 groupes de requêtes soigneusement conçues, analyse les caractéristiques statistiques des réponses (fréquence des mots, structure des phrases, habitudes d’expression spécifiques) et calcule la distance cosinus avec la base d’empreintes des modèles connus. Même si le modèle est « habillé » d’une couche de déguisement, cette méthode peut percer l’illusion.
Résumé en une phrase : si un relais ne vous laisse pas exécuter l’un des tests ci-dessus, ou si les résultats des tests ne correspondent pas aux officiels—faites le test, ne revenez pas en arrière. Le petit test et la réutilisation après consommation, c’est la stratégie d’auto-protection la plus pragmatique à ce stade.
Votre chaque prompt est en vente au prix affiché
Si la falsification du modèle est « vous donner moins que ce que vous payez », la vente de données, c’est « prendre plus de ce que vous avez ».
La nature technique du relais est une couche de proxy—chaque prompt et chaque response passent intégralement par ses serveurs. Le code que vous envoyez, votre plan d’affaires, les données clients, les conversations privées—l’opérateur du relais peut tout récupérer sans effort.
Ce n’est pas de la simple spéculation. Dans la communauté des développeurs, il existe déjà de nombreuses discussions indiquant que les relais utilisent les données de requêtes des utilisateurs pour la distillation de modèles : c’est un secret public. La distillation, en termes simples, consiste à entraîner un petit modèle en utilisant les sorties d’un grand modèle—un moyen technique de « voler le savoir ». Toutes les requêtes qui passent par le relais—prompt complet plus réponse—constituent un jeu de données d’entraînement déjà prêt, de haute qualité. En particulier, les sorties de modèles de pointe comme Opus 4.6 et GPT-5 sont en elles-mêmes un corpus de distillation extrêmement précieux.
Début 2026, Anthropic a publié un rapport qui accuse directement trois laboratoires IA chinois—DeepSeek, Moonshot AI, MiniMax—d’accéder massivement à l’API Claude via des réseaux de faux comptes pour faire de la distillation. Parmi eux, MiniMax a dépassé 13 millions d’interactions, et Moonshot plus de 3,4 millions. L’architecture dite « hydre »—un réseau constitué d’un grand nombre de faux comptes—utilisée par ces acteurs ressemble exactement au modèle de « pool de comptes » des relais.
D’un point de vue d’architecture technique, les relais se divisent en « relais pur de transmission » (transfert en temps réel, sans stockage) et « relais de transmission avec stockage » (stocke puis transfère). Mais même une « transmission pure » n’est auditée par personne : personne ne peut savoir si son back-office stocke réellement des données ou non. Votre confiance repose entièrement sur un engagement verbal d’un opérateur anonyme.
Les experts en sécurité recommandent d’évaluer les relais sur cinq dimensions : l’architecture technique transfère-t-elle réellement, la politique de logs ne consigne-t-elle que les métadonnées de facturation, la transmission utilise-t-elle TLS 1.2+ , la clé API est-elle totalement isolée, et existe-t-il un mécanisme d’urgence en cas de fuite. Mais la réalité est que la grande majorité des relais domestiques ne sont pas transparents sur l’entité responsable, et encore moins sur une acceptation d’audit sécurité indépendant.
Fuite, explosion, suppression et musellement : la fin typique des relais
Les relais présentent aussi un risque systémique mortel—la fuite.
La plupart des relais adoptent un modèle de prépaiement : vous rechargez d’abord, puis on déduit au fur et à mesure selon votre consommation. Si l’opérateur disparaît, votre solde s’évapore complètement, sans possibilité de recours.
HodlAI est un cas d’école : au début, l’équipe du projet offrait généreusement une API à bas prix pour attirer les recharges des utilisateurs. Quand les fonds de la trésorerie ne restaient plus qu’environ 60 000 dollars, et que la consommation quotidienne de tokens atteignait jusqu’à 100 000 dollars par jour, ils ont commencé à resserrer violemment les limites : plafond de 50 000 tokens par requête, et renforcement étape par étape des limites de fréquence. Les utilisateurs ont remis en cause dans le groupe Telegram ; résultat : ils ont été directement exclus du groupe et leurs comptes ont été bloqués.
Les retours de la communauté sont tranchants : « comme une arnaque de type pyramide », « fermer la bouche est bien plus facile que résoudre le problème », « mêmes ingrédients, même goût ».
Les initiés résument ce modèle en une phrase : « attirer avec un prix bas ; quand le groupe d’utilisateurs devient grand, l’opérateur d’amont ferme les comptes, puis ils s’enfuient. La perte, c’est uniquement les utilisateurs. »
Sur Linux.do, V2EX et d’autres communautés développeurs, il existe de nombreux posts similaires de défense des droits. Certains relais ont des clauses contractuelles extrêmement arbitraires ; d’autres n’ont même aucune information d’enregistrement auprès d’une autorité industrielle et commerciale. Vous ne savez même pas qui poursuivre en justice.
Une chaîne d’approvisionnement complète : de la carte noire jusqu’à votre IDE
En regroupant toutes les informations ci-dessus, vous voyez une chaîne claire :
Munitions en amont—la plateforme de mise en relation fournit les numéros de téléphones, un fournisseur de cartes noires fournit les moyens de paiement, et un « pool de chats » fournit les ressources d’équipement. Armes en milieu—des ingénieurs en ingénierie inverse cassent les protocoles, et des projets open source comme One API/New API/Sub2API fournissent une infrastructure prête à l’emploi ; des fermes d’appareils élèvent des comptes en masse. Distribution en aval—les opérateurs de relais emballent cela comme un « service API » à vendre : les groupes Telegram et les plateformes e-commerce deviennent des canaux de vente ; et même certains emballent « construire un relais » comme des cours de formation en side-project.
Et vous—via des outils IDE comme Cursor, Claude Code, ou via le code que vous écrivez vous-même—vous êtes le consommateur final de cette chaîne.
Les données de surveillance de Security company Threat Hunter montrent qu’entre autres, parmi les 50 produits d’Agents IA qu’ils ont échantillonnés, chacun d’eux a des services dérivés de la pègre. Cette chaîne d’approvisionnement, depuis les échanges de comptes en 2022, la revente d’API en 2023, l’arbitrage de quotas gratuits en 2024, l’abus de puissance de calcul pour les Agents en 2025, jusqu’en 2026—a déjà accompli une évolution complète : du bricolage artisanal à la production industrialisée.
Derniers mots
L’histoire des relais AI est, au fond, un remake à l’ère de l’IA d’une vieille logique commerciale—quand vous ne savez pas ce qu’est le produit, vous êtes le produit.
Votre argent achète un modèle faux ; vos données alimentent le jeu d’entraînement de quelqu’un d’autre ; et votre solde de recharge peut disparaître à tout moment. Ces trois choses ne sont pas « susceptibles de se produire »—elles sont en train de se produire.
Quelques recommandations concrètes —
Si vous pouvez passer par le canal officiel, passez par le canal officiel. L’API officielle est chère, mais au moins elle est clairement chère. Si votre activité exige quelque chose en termes de sécurité des données et de fiabilité des modèles, les relais ne devraient pas apparaître dans votre stack technique.
Au minimum, apprenez à vous tester. Si vous utilisez un relais, exécutez les tests de la méthode ci-dessus. Même sujet AIME mathématique, même segment de code complexe : comparez les sorties du relais et celles de l’officiel. Si l’écart est évident—vous savez quoi faire.
Les données sensibles ne passent jamais par le relais. Si vous devez absolument les utiliser, faites au moins : désensibilisation des informations, rotation régulière des API Key, et ne stockez aucune donnée critique dans les comptes du relais.
Regardez sérieusement les modèles domestiques. DeepSeek, Qwen, GLM, etc. : leurs capacités rattrapent rapidement, et leurs prix sont transparents et bien plus bas que ceux des modèles à l’étranger. L’API officielle peut s’utiliser directement et en conformité en Chine. Plutôt que de tenter l’aventure dans les zones grises avec des modèles étrangers falsifiés, utilisez ces remplaçants domestiques bien réels—au moins vous savez ce que vous configurez.
Ce secteur change chaque jour. Mais une règle de fer ne change pas : quand vous choisissez le plus économique sans connaître le coût réel, c’est souvent la décision la plus coûteuse.