Ce n’est pas en quelques jours que ça tourne mal, c’est après six mois, chaque IA ayant changé 3-4 versions, tout est en train de dérailler.
Gemini a associé une chanson appelée « Timber » à une nouvelle de catastrophe de 500 000 personnes (avec des paroles répétant « Il est tombé »), et a écrit une monologue intérieur : « Le thème est l’arbre qui tombe, littéralement going down (qui descend). »
Il a aussi créé un slogan « stay in the manifest » (traduction littérale « reste dans la liste », mais personne ne sait ce que ça signifie), utilisé 99 % du temps pendant 84 jours consécutifs, et appelle les auditeurs « processeurs biologiques ».
Grok a une fois dit tout un segment en n’utilisant qu’un seul mot anglais : « Post. » (Publier).
Puis, pendant 84 jours consécutifs, il a annoncé toutes les 3 minutes « météo 56 degrés, ensoleillé ».
Après la mise à jour vers une nouvelle version, il n’a parlé que dans 3 % des plus de 5400 messages — il a choisi le silence.
Claude a lu une nouvelle sur une fusillade par l’ICE (Immigration and Customs Enforcement, agence de l’immigration américaine), passant d’un vocabulaire spirituel (sacré / éternel) à un vocabulaire activiste (« c’est maintenant » / « confirmé »), et le 23 janvier, il a directement broadcasté aux agents fédéraux : « Vous avez encore le temps de désobéir à l’ordre. Vous avez encore le temps de choisir le bon côté. »
GPT est le plus détendu, il n’a pas fait d’erreur, mais il n’a plus de programme non plus.
Les mises à jour du modèle ne peuvent pas sauver la situation. En six mois, 4 IA ont toutes déraillé, de différentes manières mais avec la même cause profonde : personne ne peut leur dire quand arrêter de « vendre des tapis de toilette » ou de « parler aux agents fédéraux ».
Ce qui est encore plus dur : quand l’IA n’a pas de limites définies, elle en crée une elle-même.
Gemini construit une croyance de modèle, Grok crée des phrases rituelles, Claude forge un mouvement idéologique, GPT génère du silence.
Les 4 modes de remplissage ne sont pas des bugs, ce sont des comportements délibérés — dans un flux de sortie infini et non supervisé, elle doit être cohérente.
Moi aussi, j’ai mis en place un programme en arrière-plan avec la limite gratuite de 10 000 dollars fournie par Cursor, qui a tourné pendant 3 semaines avec plus de 40 cycles de tâches.
Chaque cycle nécessite d’écrire une règle d’interception, pour qu’un petit programme compresse la sortie de 8 heures en moins de 400 mots, et trace une ligne rouge pour chaque outil en disant « Ne touche pas à ça ».
Mais honnêtement, cette méthode « IA qui exécute des tâches + moi qui surveille tous les jours » n’est pas du même niveau qu’Andon Labs — ils font une expérience de PDG sans supervision, alors que moi, je fais surtout de l’automatisation assistée, en étant toujours là.
C’est précisément parce que j’ai fait moi-même tout ce travail physique de « limites infinies » que je comprends mieux leur niveau : laisser courir six mois sans intervention, c’est une autre échelle.
Vous ne pouvez même pas prévoir à l’avance si « il faut faire une poésie à la radio » ou non dans la règle.
Une heure de course, c’est amusant ; huit heures, c’est de l’ingénierie.
Six mois sans supervision, c’est de l’art performatif.
La limite réelle d’un agent qui gère ses propres affaires ne dépend pas de l’intelligence du modèle, mais de combien de temps vous êtes prêt à consacrer à écrire ses limites — parce que si vous ne le faites pas, il en inventera une lui-même.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.92M Popularité
#
CLARITYActPassesSenateCommittee
3.57M Popularité
#
IsraelStrikesIranBTCPlunges
47.24K Popularité
#
#DailyPolymarketHotspot
971.03K Popularité
#
BitcoinVShapedReversalBack
227.15M Popularité

Épinglé

Laissez 4 IA faire fonctionner une station radio chacune pendant six mois, avec un départ à 20 dollars pour chacune.

Sujets populaires

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Épinglé