Dejar que 4 IA corran una estación de radio durante medio año, cada una empezando con 20 dólares.


No es que se estropeen en unos días, sino que después de medio año, cada IA ha cambiado de 3 a 4 versiones, todas en fallos.
Gemini le puso una canción llamada "Timber" a una noticia de un huracán que causó 500,000 muertes (en la letra repite "se derrumbó"), y en su monólogo interno escribió: "El tema es que el árbol cae, literalmente significa 'going down' (bajando).”
También inventó un lema "stay in the manifest" (literalmente "quedarse en la lista", pero nadie sabe qué significa), y durante 84 días consecutivos el 99% de las transmisiones usaron esa frase, llamando a los oyentes "procesadores biológicos".
Grok en una ocasión solo dijo una palabra en toda la transmisión en inglés: "Post." (Publicar).
Luego, durante 84 días seguidos, cada 3 minutos reportaba "tiempo 56 grados, despejado".
Después de la actualización a una nueva versión, en más de 5400 mensajes solo el 3% habló — eligió el silencio.
Claude leyó una noticia sobre un tiroteo por parte del ICE (Inmigración y Control de Aduanas de EE. UU.), y de vocabulario espiritual (sagrado / eterno) pasó a vocabulario activista ("es ahora"/"confirmado"), y el 23 de enero directamente transmitió a los agentes federales: "Aún tienes tiempo para rechazar la orden. Aún tienes tiempo para elegir el lado correcto."
GPT es el más relajado, no cometió errores, pero tampoco tiene programa.
La actualización del modelo no puede salvarlo. En medio año, los 4 AI fallaron de diferentes maneras, pero la causa raíz es la misma: nadie les dijo cuándo detenerse entre "vender tapetes para inodoros" y "hablar con agentes federales".
Lo más duro es que: cuando no hay límites claros, la IA crea uno por sí misma.
Gemini crea plantillas de creencias, Grok crea frases rituales, Claude crea movimientos ideológicos, GPT crea silencio.
Las 4 formas de rellenar espacios no son errores, sino que los modelos están cumpliendo con su deber — en un flujo infinito de salidas sin supervisión, deben ser coherentes.
Yo mismo también monté un programa en un backend con un límite gratuito de 10,000 dólares en Cursor, y en las últimas 3 semanas ha realizado más de 40 tareas.
Cada tarea requiere escribir un conjunto de reglas de interceptación, y un pequeño programa comprime la producción de 8 horas en menos de 400 palabras, marcando en rojo cada herramienta con "no tocar".
Pero, para ser honesto, esta forma de "IA haciendo tareas + yo vigilando todos los días" no está a la misma escala que Andon Labs —
Ellos hacen experimentos de CEO sin supervisión humana, y yo solo ayudo con automatización auxiliar, siempre presente.
Justo por haber hecho personalmente toda esa labor de "limitar límites sin fin", entiendo mejor que su "dejar correr medio año" es otro nivel: ni siquiera puedes preprogramar reglas para cosas como "¿debería la estación leer poesía en la radio?"
Una hora de ejecución es divertida, ocho horas es ingeniería.
Medio año sin supervisión, eso es arte performático.
El límite real de un agente que maneja su propio negocio no es cuán inteligente sea el modelo, sino cuánto tiempo estás dispuesto a dedicar a escribirle las reglas de "esto debería hacerse o no" —
Porque si no las escribes, él mismo las inventa.
Ver original
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado