OpenAI caiu! Bug na lei de escalonamento original exposto, biliões de poder computacional queimados.

OpenAI enganou todo o círculo da IA durante vários anos!

Nos últimos cinco anos, toda a indústria de IA foi impulsionada pela Scaling Law.

Altman acreditava firmemente que a base para a AGI vinha desta curva.

Agora, alguém aparece e diz: esta curva estava errada desde o início.

Não é um sábio depois do acontecimento. Quem diz isto é o investigador Diogo Almeida, que na altura já fazia otimização de grandes modelos na OpenAI.

Acabou de publicar um blogue, com um título arrepiante — «Scaling Laws, Honestly».

A primeira frase já diz tudo: a versão original da scaling law estava errada, porque existia um bug.

Portal: https://www.completeskeptic.com/p/scaling-laws-honestly

Sander Dieleman, da DeepMind, que se tornou famoso pelos modelos de difusão, partilhou-o no Twitter, dizendo que esta é uma história interessante dos LLM:

A scaling law original estava errada devido a um bug, o que provavelmente fez com que a indústria desperdiçasse enormes quantidades de poder computacional em modelos «demasiado grandes e subtreinados».

Um bug, queimou dois anos.

Quando o bug é exposto, vemos não apenas um buraco negro de poder computacional, mas também uma fronteira da inteligência remodelada pela própria linguagem, muito mais profunda do que se imaginava.

Scaling Law é a versão LLM da «teoria geocêntrica»


Em 2020, a OpenAI concluiu que, sob um orçamento computacional fixo, devemos dar prioridade a aumentar o tamanho do modelo, em vez de lhe dar mais dados.

Em termos de fórmula, o número ótimo de parâmetros é proporcional à potência 0,73 do poder computacional — os parâmetros são a variável que mais deve ser aumentada.

Esta frase definiu diretamente a aparência da geração GPT-3. Empilhar parâmetros. Empilhar até à morte. 175 mil milhões.

Disse aos programadores do mundo inteiro: não perguntes, a resposta é empilhar parâmetros; desde que tornes o modelo suficientemente grande, milagres acontecerão.

Dois anos depois, a DeepMind lançou o Chinchilla, que virou esta conclusão de pernas para o ar: o modelo e os dados devem ser ampliados juntos, com importância aproximadamente igual, sendo cerca de 20 tokens por parâmetro a relação mais vantajosa.

Treinaram um Chinchilla com 70 mil milhões de parâmetros, alimentado com 1,4 biliões de tokens — menos de metade do tamanho do GPT-3, mas mais de quatro vezes os dados.

Resultado: com o mesmo orçamento computacional, superou amplamente o Gopher, que tinha 280 mil milhões de parâmetros e foi alimentado com apenas 300 mil milhões de tokens.

Em linguagem simples: com a mesma quantia, um transformou-o num brutamontes «inchado», o outro num pugilista magro e forte.

Após três anos de atraso, a ex-aluna da Universidade de Pequim, Weng Li, explorou a explicação dominante das diferenças em estudos posteriores, ou seja, a diferença reside na forma como calcularam o número total de parâmetros.

E isto ainda não acabou. Até o «correto» Chinchilla também não está limpo.

Em 2024, Besiroglu e outros extraíram os pontos de dados do artigo original do Chinchilla e reexecutaram-nos, descobrindo que o próprio ajuste também continha um bug:

A escala de loss no otimizador foi definida demasiado alta, e a perda de Huber foi calculada como a média por amostra em vez da soma, levando a uma terminação prematura do ajuste.

O artigo que corrigiu o bug, trazia ele próprio outro bug.

A este ponto, o tal «primeiro princípio» que tantos repetem de repente já não se sustenta.

A chamada Scaling Law nunca foi uma lei física inabalável como as três leis de Newton, é apenas uma curva ajustada empiricamente.

Quando Diogo Almeida acha que a verdade não é essa, não é que o método seja diferente, «é que a versão original da scaling law tinha um bug.»

OpenAI enganou toda a comunidade global de IA com três truques?


Para fabricar uma mentira que toda a IA global acreditaria, bastam três passos.

Primeiro passo: aprisionar os dados.

O artigo da OpenAI deu a todos os modelos — quer fossem crianças a aprender a andar (modelos pequenos) ou gigantes já crescidos — exatamente a mesma «dose de comida». Cerca de 130 mil milhões de tokens de dados.

Os modelos pequenos foram assim «alimentados» ou mesmo «empanturrados», enquanto os modelos grandes, que precisavam de enormes quantidades de dados para preencher a sua capacidade, sofreram de grave desnutrição com o mesmo orçamento de tokens.

O artigo do Chinchilla posteriormente apontou com precisão: eles usaram para todos os modelos «um número fixo de tokens de treino e um esquema de agendamento da taxa de aprendizagem.» (fixed number of training tokens and learning rate schedule).

Isto é como dar a mesma prova, no mesmo tempo, a alunos do jardim de infância e a doutorandos, e depois afirmar que «o resultado depende apenas do talento».

Segundo passo: a atenuação da LR que tapa os olhos e orelhas.

Eles usaram decaimento da taxa de aprendizagem cossenoidal (Cosine Decay), fazendo com que a taxa de aprendizagem se aproximasse suavemente de zero perto do final do treino.

Quando o treino se aproximava do final predefinido, a taxa de aprendizagem era artificialmente reduzida a zero, e o progresso do modelo naturalmente «achatava-se».

Quando a curva se achatava, parecia que o modelo já tinha aprendido ao máximo, e alimentá-lo mais não traria benefícios.

Os investigadores concluíram então: «Adicionar dados é inútil, o modelo já satuou.»

Isto não é o limite do modelo, é a taxa de aprendizagem a cortar artificialmente o caminho de crescimento do modelo. Cria uma ilusão perfeita: o desempenho já atingiu o teto, e adicionar dados é inútil.

Mas agora sabemos que esses grandes modelos não tinham chegado ao fim.

Terceiro passo: a arrogância da autoridade.

O terceiro passo, e o mais sinistro: no artigo, escreveram que o resultado «é largamente independente do agendamento da taxa de aprendizagem» (largely independent of learning rate schedule).

Embora muitos, incluindo o então na OpenAI Diogo Almeida, sentissem vagamente que algo estava errado, com um limite fixo de tokens, esta conclusão era tecnicamente correta.

Mas ela simplesmente não se aplicava ao mundo ideal de «dados infinitos» que a scaling law realmente pretendia descrever.

Eles tomaram uma verdade local sob condições limitadas como uma lei universal do cosmos.

Com os três passos combinados, obtém-se uma lei que é errada e extremamente difícil de depurar.

Até o próprio Diogo admite: na altura, ele também estava na OpenAI a fazer otimização e não viu este bug — aquela curva da taxa de aprendizagem parecia demasiado «cuidadosamente definida» para alguém suspeitar.

GPU desperdiçado, grave desajuste de poder computacional


Guiada pela fórmula errada da OpenAI, a indústria de IA entrou numa era de «força bruta faz milagres».

Isto significa que, nos últimos anos, as mentes mais brilhantes do mundo e o poder computacional mais escasso foram desperdiçados em expansões de escala ineficazes.

Não é apenas uma questão de dinheiro; é que, na corrida contra o tempo para a AGI (Inteligência Artificial Geral), a humanidade, devido à definição da taxa de aprendizagem, correu coletivamente milhares de quilómetros na pista errada.

Se a descoberta do bug é de partir o coração, a reflexão profunda que se seguiu é arrepiante.

O investigador Adam Zachary Wasserman apontou um ponto cego ignorado por todos: mesmo corrigindo a fórmula, a atual Scaling Law é apenas a «Scaling Law do inglês».

Ele fez uma experiência contraintuitiva: treinar modelos com a mesma arquitetura e o mesmo poder computacional.

Os resultados mostraram que a eficiência do modelo francês para atingir uma certa capacidade gramatical foi 50 a 100 vezes superior à do modelo inglês.

Porquê? Porque o inglês é uma língua «morfologicamente pobre».

Depende demasiado de padrões distribucionais, exigindo que o modelo adivinhe o significado das palavras em enormes quantidades de dados; enquanto línguas como o francês ou o chinês, ricas em morfologia ou estruturalmente rigorosas, trazem grande quantidade de informação explícita no próprio vocabulário.

Isto significa que todos os nossos esquemas de alocação de poder computacional são baseados numa língua que «consome mais dados» e é a menos eficiente.

Quando pensas que estás a explorar as leis físicas da «inteligência geral», na verdade estás apenas a medir «quanto o inglês desperdiça poder computacional».

Isto é como tentar estabelecer padrões nutricionais para todos os seres do universo estudando o apetite de um porco — não é apenas preconceito, é uma limitação cognitiva.

Podíamos ter alcançado um desempenho superior com modelos mais pequenos e mais dados de qualidade.

Podíamos ter poupado a eletricidade e o calor de dezenas de milhares de horas de funcionamento de H100.

Podíamos ter entrado na era da «IA eficiente» dois anos mais cedo.

Fonte deste artigo: Xin Zhi Yuan

Aviso de riscos e cláusulas de isenção de responsabilidade

        O mercado tem riscos, o investimento requer cautela. Este artigo não constitui aconselhamento pessoal de investimento, nem leva em consideração os objetivos de investimento, situação financeira ou necessidades específicas de cada utilizador. Os utilizadores devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo se adequam à sua situação específica. Investir com base neste artigo é por sua conta e risco.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado