OpenAI desabou! Bug exposto na obra original da Scaling law, todo o poder computacional de trilhões queimado.

OpenAI enganou todo o círculo de IA por anos!

Nos últimos cinco anos, toda a indústria de IA foi impulsionada pela Scaling Law.

A confiança de Altman na AGI vem dessa curva.

Agora, alguém se levanta e diz: essa curva estava errada desde o início.

Não é um arrependimento tardio. Quem diz isso é o pesquisador Diogo Almeida, que na época já otimizava grandes modelos na OpenAI.

Agora mesmo, ele publicou um blog com um título gelado — "Scaling Laws, Honestly".

A primeira frase já diz tudo: a versão original da scaling law estava errada, porque havia um bug.

Portal: https://www.completeskeptic.com/p/scaling-laws-honestly

O Sander Dieleman, da DeepMind, que se tornou famoso pelos modelos de difusão, logo o compartilhou no Twitter, dizendo que é uma história interessante dos LLMs:

A scaling law original estava errada devido a um bug, e provavelmente fez com que a indústria queimasse uma enorme quantidade de poder computacional em uma série de modelos "superdimensionados e subtreinados".

Um bug, dois anos perdidos.

Quando o bug foi exposto, vimos não apenas um buraco negro de poder computacional, mas também uma fronteira de inteligência muito mais profunda do que se imaginava, remodelada pela própria linguagem.

Scaling Law era a "teoria geocêntrica" dos LLMs

Em 2020, a OpenAI concluiu: com um orçamento computacional fixo, você deve priorizar tornar o modelo maior, em vez de alimentá-lo com mais dados.

Em fórmulas, o número ótimo de parâmetros é proporcional à 0,73ª potência do poder computacional — os parâmetros são a variável que deve ser aumentada agressivamente.

Essa frase definiu diretamente a aparência da geração GPT-3. Empilhar parâmetros. Empilhar até a morte. 175 bilhões.

Ela disse aos desenvolvedores do mundo inteiro: não pergunte, a resposta é empilhar parâmetros; contanto que você torne o modelo grande o suficiente, milagres acontecerão.

Dois anos depois, a DeepMind lançou o Chinchilla, virando essa conclusão de cabeça para baixo: modelo e dados devem ser ampliados juntos com aproximadamente a mesma importância, cerca de 20 tokens por parâmetro é o ideal.

Eles treinaram um Chinchilla de 70 bilhões de parâmetros, alimentado com 1,4 trilhão de tokens — menos da metade do tamanho do GPT-3, mas com mais de quatro vezes os dados.

Resultado: com o mesmo orçamento computacional, superou completamente o Gopher de 280 bilhões de parâmetros que foi alimentado com apenas 300 bilhões de tokens.

Traduzindo para o português: com o mesmo dinheiro, um criou um "grandalhão inchado", o outro treinou um lutador enxuto.

Três anos depois, a ex-aluna da Universidade de Pequim, Weng Li, discutiu em profundidade a explicação mainstream nas pesquisas subsequentes para a diferença entre os dois, ou seja, a diferença está na forma como calculam o número total de parâmetros.

E isso não acabou. Até mesmo o Chinchilla "correto" não está limpo.

Em 2024, Besiroglu e outros pegaram os pontos de dados do artigo original do Chinchilla e os reexecutaram, descobrindo que sua própria abordagem de ajuste também continha um bug:

A escala da loss no otimizador foi configurada muito alta, e a perda de Huber foi calculada como uma média por amostra em vez de soma, resultando em uma terminação prematura do ajuste.

O artigo que corrigiu o bug trouxe outro bug.

Neste ponto, aquele "primeiro princípio" que tantos repetem de repente não se sustenta mais.

A chamada Scaling Law nunca foi uma lei física sólida como as três leis de Newton; é apenas uma curva ajustada empiricamente.

Quando Diogo Almeida acredita que a verdade não é essa, não é que o método seja diferente, "é que a versão original da scaling law tinha um bug."

OpenAI enganou toda a comunidade global de IA com três truques?

Para criar uma mentira que fizesse toda a comunidade global de IA acreditar, bastam três passos.

Primeiro passo: aprisionar os dados.

O artigo da OpenAI alimentou todos os modelos — independentemente de serem crianças aprendendo a andar (modelos pequenos) ou gigantes já crescidos — com exatamente a mesma "quantidade de comida". Cerca de 130 bilhões de tokens de dados.

Modelos pequenos foram assim "alimentados" ou até "estufados", enquanto os grandes modelos, que realmente precisam de enormes quantidades de dados para preencher sua capacidade, sofreram de desnutrição grave com o mesmo orçamento de tokens.

O artigo do Chinchilla posteriormente apontou com precisão: eles usaram para todos os modelos um "número fixo de tokens de treinamento e cronograma de taxa de aprendizado." (fixed number of training tokens and learning rate schedule).

Isso é como fazer crianças do jardim de infância e doutorandos usarem a mesma prova no mesmo tempo e depois declarar que "o desempenho só está relacionado ao talento."

Segundo passo: a decadência da taxa de aprendizado que tapa os ouvidos enquanto rouba o sino.

Eles usaram a decadência cosseno da taxa de aprendizado (Cosine Decay), fazendo com que a taxa de aprendizado se aproxime suavemente de zero quando o treinamento está perto do fim.

Quando o treinamento se aproxima do fim predefinido, a taxa de aprendizado é artificialmente reduzida a zero aos poucos, e o progresso do modelo naturalmente "achata".

Quando a curva se achata, parece que o modelo já aprendeu tudo que podia, alimentar mais não adianta.

Os pesquisadores então concluíram: "adicionar dados não adianta, o modelo já está saturado."

Isso não é o limite do modelo, é a taxa de aprendizado cortando artificialmente o caminho de crescimento do modelo. Ela cria uma ilusão perfeita: o desempenho já atingiu o teto, adicionar dados é inútil.

Mas agora sabemos que aqueles grandes modelos não chegaram ao fim.

Terceiro passo: a arrogância da autoridade.

O terceiro passo, também o mais perverso: o artigo escreveu que os resultados são "em grande parte independentes do cronograma da taxa de aprendizado."

Embora muitas pessoas, incluindo Diogo Almeida que estava na OpenAI na época, sentissem vagamente que algo estava errado, sob o limite fixo de tokens, essa conclusão era tecnicamente correta.

Mas ela simplesmente não se aplica ao mundo ideal de "dados infinitos" que a scaling law realmente queria descrever.

Eles tomaram uma verdade parcial sob condições limitadas como uma lei universal do cosmos.

Com os três passos combinados, você obtém uma lei que é ao mesmo tempo errada e extremamente difícil de depurar.

Até o próprio Diogo admite: na época ele também fazia otimização na OpenAI e não percebeu esse bug — a curva de taxa de aprendizado parecia tão "cuidadosamente ajustada" que ninguém iria suspeitar.

GPUs desperdiçadas inutilmente, alocação computacional severamente desajustada

Guiada pela fórmula errada da OpenAI, a indústria de IA entrou na era de "muita força gera milagres."

Isso significa que nos últimos anos, as mentes mais brilhantes do mundo e o poder computacional mais escasso foram desperdiçados em expansões de escala ineficazes.

Não é apenas uma questão de dinheiro; é que, na corrida de velocidade pela AGI (Inteligência Artificial Geral), a humanidade, devido às configurações da taxa de aprendizado, correu coletivamente milhares de quilômetros na pista errada.

Se a descoberta do bug é dolorosa, a reflexão profunda que se seguiu é arrepiante.

O pesquisador Adam Zachary Wasserman apontou um ponto cego ignorado por todos: mesmo com a fórmula corrigida, a atual Scaling Law é apenas a "Scaling Law do inglês".

Ele fez um experimento contraintuitivo: treinar modelos com a mesma arquitetura e o mesmo poder computacional.

Descobriu que a eficiência dos modelos de francês para atingir certa capacidade gramatical é de 50 a 100 vezes maior do que a dos modelos de inglês.

Por quê? Porque o inglês é uma língua "morfologicamente pobre".

Ela depende muito de padrões distribucionais, exigindo que o modelo adivinhe o significado das palavras em meio a enormes quantidades de dados; enquanto línguas como francês e chinês, que são morfologicamente ricas ou estruturalmente rígidas, trazem muitas informações explícitas nas próprias palavras.

Isso significa que todos os nossos atuais planos de alocação de poder computacional são baseados em uma língua que mais "consome dados" e é a menos eficiente.

Quando você pensa que está explorando as leis físicas da "inteligência geral", na verdade está apenas medindo "o quanto o inglês desperdiça poder computacional."

Isso é como tentar estabelecer um padrão nutricional para todos os seres do universo estudando o apetite de um porco — não é apenas preconceito, é uma limitação cognitiva.

Poderíamos ter usado modelos menores e mais dados de qualidade para alcançar desempenho superior.

Poderíamos ter economizado eletricidade e calor de dezenas de milhares de horas de operação de H100.

Poderíamos ter entrado na era da "IA eficiente" dois anos antes.

Fonte deste artigo: Xin Zhi Yuan

Aviso de Risco e Termos de Isenção de Responsabilidade

O mercado tem riscos, invista com cautela. Este artigo não constitui conselho de investimento pessoal e não considera os objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Investir com base nisto é por sua própria conta e risco.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado