¡OpenAI se derrumba! El autor original de la ley de escalado expone un error, billones de potencia de cálculo desperdiciados.

OpenAI ha engañado a toda la industria de la IA durante varios años.

En los últimos cinco años, toda la industria de la IA ha sido impulsada por la Ley de Escalado (Scaling Law).

La confianza de Altman en la AGI proviene precisamente de esta curva.

Ahora, alguien se ha presentado para decir: esta curva estuvo mal desde el principio.

No es un análisis retrospectivo. Quien lo dice es Diogo Almeida, un investigador que en su momento trabajaba en la optimización de modelos grandes en OpenAI.

Acaba de publicar un blog con un título escalofriante: "Scaling Laws, Honestly".

La primera frase deja las cosas claras: la versión original de la ley de escalado es incorrecta debido a un error (bug).

Enlace: https://www.completeskeptic.com/p/scaling-laws-honestly

Sander Dieleman, el experto de DeepMind conocido por sus modelos de difusión, lo compartió de inmediato en Twitter, calificándolo como un episodio interesante en la historia de los LLM:

La ley de escalado original era incorrecta debido a un bug, lo que probablemente llevó a la industria a malgastar una enorme cantidad de cómputo en un montón de modelos "sobredimensionados y subentrenados".

Un bug, dos años perdidos.

Cuando el bug se expone, no solo vemos un agujero negro de cómputo, sino también una frontera de inteligencia mucho más profunda de lo imaginado, moldeada por el propio lenguaje.

La Ley de Escalado: ¿el "modelo geocéntrico" de los LLM?

En 2020, OpenAI concluyó: bajo un presupuesto fijo de cómputo, se debe priorizar hacer el modelo más grande, en lugar de alimentarlo con más datos.

En fórmula, la cantidad óptima de parámetros es proporcional al cómputo elevado a 0,73: los parámetros son la variable que más debe impulsarse.

Esta frase definió directamente la apariencia de la generación de GPT-3. Apilar parámetros. Apilar sin límite. 175 mil millones.

Le dijo a los desarrolladores de todo el mundo: no preguntes, solo apila parámetros; mientras hagas el modelo lo suficientemente grande, ocurrirá el milagro.

Dos años después, DeepMind lanzó Chinchilla, volcando esta conclusión por completo: el modelo y los datos deben escalarse juntos con aproximadamente la misma importancia, y es rentable asignar unos 20 tokens por parámetro.

Entrenaron un Chinchilla de 70 mil millones de parámetros, alimentado con 1,4 billones de tokens —menos de la mitad del tamaño de GPT-3, pero más de cuatro veces sus datos—.

Resultado: con el mismo presupuesto de cómputo, superó completamente al Gopher de 280 mil millones de parámetros, alimentado solo con 300 mil millones de tokens.

En lenguaje llano: con la misma inversión, uno lo convirtió en un gigante "hinchado", y el otro en un luchador esbelto.

Tres años después, la ex-alumna de la Universidad de Pekín,翁荔 (Weng Li), profundizó en la explicación principal de las diferencias entre ambos en estudios posteriores, señalando que la diferencia radica en cómo calcularon el número total de parámetros.

Y esto no es todo. Incluso el "correcto" Chinchilla no está limpio.

En 2024, Besiroglu y otros reanalizaron los puntos de datos del artículo original de Chinchilla y descubrieron que su propio ajuste también contenía un bug:

La escala de pérdida en el optimizador era demasiado alta; se promedió la pérdida de Huber por muestra en lugar de sumarla, lo que provocó que el ajuste terminara prematuramente.

El artículo que corrige el bug, lleva otro bug.

Llegados a este punto, el "principio fundamental" que tantos repiten de repente se tambalea.

La llamada Ley de Escalado nunca ha sido una ley física tan sólida como las tres leyes de Newton; es solo una curva ajustada empíricamente.

Cuando Diogo Almeida considera que la verdad no es así, no es que el método sea diferente, "es que la versión original de la ley de escalado tiene un bug en sí misma".

¿Tres trucos de OpenAI engañaron a la industria global de la IA?

Para crear una mentira que haga creer a toda la IA global, solo se necesitan tres pasos.

Primer paso: Encarcelar los datos.

El artículo de OpenAI alimentó a todos los modelos —ya sean niños que están aprendiendo a caminar (modelos pequeños) o gigantes ya formados— con exactamente la misma "cantidad de comida". Aproximadamente 130 mil millones de tokens de datos.

Los modelos pequeños se "saciaron" e incluso se "atiborraron", mientras que los modelos grandes, que realmente necesitan una gran cantidad de datos para llenar su capacidad, sufrieron una grave desnutrición bajo el mismo presupuesto de tokens.

El artículo de Chinchilla señaló posteriormente con agudeza: "utilizaron un número fijo de tokens de entrenamiento y un esquema de tasa de aprendizaje para todos los modelos" (fixed number of training tokens and learning rate schedule).

Es como hacer que un niño de jardín de infantes y un estudiante de doctorado tomen el mismo examen en el mismo tiempo, y luego afirmar que "el rendimiento solo está relacionado con el talento".

Segundo paso: La disminución de la LR que se tapa los oídos.

Usaron una disminución de la tasa de aprendizaje por coseno (Cosine Decay), que hace que la tasa de aprendizaje se acerque suavemente a cero cuando el entrenamiento está cerca del final.

Cuando el entrenamiento se acerca al final preestablecido, la tasa de aprendizaje se reduce artificialmente a cero, y el progreso del modelo naturalmente se "aplana".

Cuando la curva se aplana, parece que: el modelo ya ha aprendido todo lo que podía, seguir alimentándolo no sirve.

Los investigadores concluyeron: "Agregar datos no sirve, el modelo está saturado".

Esto no es el límite del modelo, es que la tasa de aprendizaje corta artificialmente el camino de crecimiento del modelo. Crea una ilusión perfecta: el rendimiento ya ha alcanzado el techo, agregar más datos es inútil.

Pero ahora sabemos que esos modelos grandes no estaban en absoluto en su límite.

Tercer paso: La arrogancia de la autoridad.

El tercer paso, y el más sutil: el artículo escribió que el resultado es "en gran medida independiente del programa de tasa de aprendizaje" (largely independent of learning rate schedule).

Aunque muchas personas, incluido Diogo Almeida, que entonces estaba en OpenAI, sintieron vagamente que algo no andaba bien, bajo el límite fijo de tokens, la conclusión era técnicamente correcta.

Pero no se aplica precisamente al mundo ideal de "datos infinitos" que la ley de escalado realmente pretende describir.

Tomaron una verdad local bajo condiciones limitadas como una ley universal del universo.

Al juntar los tres pasos, se obtiene una ley que es a la vez incorrecta y extremadamente difícil de depurar.

Incluso el propio Diogo admite: en aquel entonces también estaba en OpenAI haciendo optimización, y tampoco vio el bug —esa curva de tasa de aprendizaje parecía demasiado "cuidadosamente diseñada", ¿quién iba a sospechar?

GPU desperdiciadas y desajuste grave en la asignación de cómputo

Guiada por la fórmula errónea de OpenAI, la industria de la IA entró en la era de "a mayor esfuerzo, mayor milagro".

Esto significa que en los últimos años, las mentes más brillantes del mundo y el cómputo más escaso se han desperdiciado en una expansión de escala ineficaz.

No es solo una cuestión de dinero; en la carrera contrarreloj hacia la AGI (Inteligencia General Artificial), la humanidad, debido a la configuración de la tasa de aprendizaje, ha corrido colectivamente miles de kilómetros en la pista equivocada.

Si el descubrimiento del bug fue doloroso, la reflexión profunda que provocó es escalofriante.

El investigador Adam Zachary Wasserman señaló un punto ciego ignorado por todos: Incluso si se corrige la fórmula, la Ley de Escalado actual sigue siendo solo una "Ley de Escalado del Inglés".

Hizo un experimento contraintuitivo: entrenó modelos con la misma arquitectura y el mismo cómputo.

Descubrió que la eficiencia de un modelo en francés para alcanzar cierta capacidad gramatical era de 50 a 100 veces mayor que la de un modelo en inglés.

¿Por qué? Porque el inglés es un idioma "morfológicamente pobre".

Depende demasiado de patrones distribucionales, necesitando que el modelo adivine significados a partir de grandes volúmenes de datos; mientras que idiomas como el francés o el chino, ricos en morfología o con estructuras más estrictas, llevan mucha información explícita en las propias palabras.

Esto significa que todos nuestros esquemas actuales de asignación de cómputo se basan en el idioma más "hambriento de datos" y menos eficiente.

Cuando crees que estás explorando las leyes físicas de la "inteligencia general", en realidad solo estás midiendo "cuánto desperdicia de cómputo el idioma inglés".

Es como intentar establecer estándares nutricionales para todos los seres del universo estudiando el apetito de un cerdo: no es solo un sesgo, es una limitación cognitiva.

Podríamos haber utilizado modelos más pequeños con más datos de calidad para lograr un rendimiento más fuerte.

Podríamos haber ahorrado la electricidad y el calor de decenas de miles de H100 en funcionamiento.

Podríamos haber entrado en la era de la "IA eficiente" dos años antes.

Fuente del artículo: Xin Zhi Yuan (Nuevo Saber)

Aviso de riesgos y cláusula de exención de responsabilidad

        El mercado tiene riesgos, invertir con precaución. Este artículo no constituye un consejo de inversión personal, ni considera los objetivos de inversión, situación financiera o necesidades particulares de ningún usuario. Los usuarios deben considerar si cualquier opinión, punto de vista o conclusión en este artículo se ajusta a su situación particular. Cualquier inversión basada en este artículo es bajo su propia responsabilidad.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado