Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
CFD
Derivados CFD de ações dos EUA
Ações dos EUA
Aceder a ações e ETF reais dos EUA
Ações de Hong Kong
Negociar ações de qualidade cotadas em Hong Kong
Ações coreanas
SK Hynix
Negoceie ações coreanas reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Garantido por ativos de ações reais
IPO Access
Desbloquear acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negociar ações populares e desbloquear airdrops generosos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
IPO Access
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
OpenAI caiu! Bug na lei de escalonamento original exposto, biliões de poder computacional queimados.
OpenAI enganou todo o círculo da IA durante vários anos!
Nos últimos cinco anos, toda a indústria de IA foi impulsionada pela Scaling Law.
Altman acreditava firmemente que a base para a AGI vinha desta curva.
Agora, alguém aparece e diz: esta curva estava errada desde o início.
Não é um sábio depois do acontecimento. Quem diz isto é o investigador Diogo Almeida, que na altura já fazia otimização de grandes modelos na OpenAI.
Acabou de publicar um blogue, com um título arrepiante — «Scaling Laws, Honestly».
A primeira frase já diz tudo: a versão original da scaling law estava errada, porque existia um bug.
Sander Dieleman, da DeepMind, que se tornou famoso pelos modelos de difusão, partilhou-o no Twitter, dizendo que esta é uma história interessante dos LLM:
Um bug, queimou dois anos.
Quando o bug é exposto, vemos não apenas um buraco negro de poder computacional, mas também uma fronteira da inteligência remodelada pela própria linguagem, muito mais profunda do que se imaginava.
Scaling Law é a versão LLM da «teoria geocêntrica»
Em 2020, a OpenAI concluiu que, sob um orçamento computacional fixo, devemos dar prioridade a aumentar o tamanho do modelo, em vez de lhe dar mais dados.
Em termos de fórmula, o número ótimo de parâmetros é proporcional à potência 0,73 do poder computacional — os parâmetros são a variável que mais deve ser aumentada.
Esta frase definiu diretamente a aparência da geração GPT-3. Empilhar parâmetros. Empilhar até à morte. 175 mil milhões.
Disse aos programadores do mundo inteiro: não perguntes, a resposta é empilhar parâmetros; desde que tornes o modelo suficientemente grande, milagres acontecerão.
Dois anos depois, a DeepMind lançou o Chinchilla, que virou esta conclusão de pernas para o ar: o modelo e os dados devem ser ampliados juntos, com importância aproximadamente igual, sendo cerca de 20 tokens por parâmetro a relação mais vantajosa.
Treinaram um Chinchilla com 70 mil milhões de parâmetros, alimentado com 1,4 biliões de tokens — menos de metade do tamanho do GPT-3, mas mais de quatro vezes os dados.
Resultado: com o mesmo orçamento computacional, superou amplamente o Gopher, que tinha 280 mil milhões de parâmetros e foi alimentado com apenas 300 mil milhões de tokens.
Em linguagem simples: com a mesma quantia, um transformou-o num brutamontes «inchado», o outro num pugilista magro e forte.
Após três anos de atraso, a ex-aluna da Universidade de Pequim, Weng Li, explorou a explicação dominante das diferenças em estudos posteriores, ou seja, a diferença reside na forma como calcularam o número total de parâmetros.
E isto ainda não acabou. Até o «correto» Chinchilla também não está limpo.
Em 2024, Besiroglu e outros extraíram os pontos de dados do artigo original do Chinchilla e reexecutaram-nos, descobrindo que o próprio ajuste também continha um bug:
A este ponto, o tal «primeiro princípio» que tantos repetem de repente já não se sustenta.
A chamada Scaling Law nunca foi uma lei física inabalável como as três leis de Newton, é apenas uma curva ajustada empiricamente.
Quando Diogo Almeida acha que a verdade não é essa, não é que o método seja diferente, «é que a versão original da scaling law tinha um bug.»
OpenAI enganou toda a comunidade global de IA com três truques?
Para fabricar uma mentira que toda a IA global acreditaria, bastam três passos.
Primeiro passo: aprisionar os dados.
O artigo da OpenAI deu a todos os modelos — quer fossem crianças a aprender a andar (modelos pequenos) ou gigantes já crescidos — exatamente a mesma «dose de comida». Cerca de 130 mil milhões de tokens de dados.
Os modelos pequenos foram assim «alimentados» ou mesmo «empanturrados», enquanto os modelos grandes, que precisavam de enormes quantidades de dados para preencher a sua capacidade, sofreram de grave desnutrição com o mesmo orçamento de tokens.
O artigo do Chinchilla posteriormente apontou com precisão: eles usaram para todos os modelos «um número fixo de tokens de treino e um esquema de agendamento da taxa de aprendizagem.» (fixed number of training tokens and learning rate schedule).
Isto é como dar a mesma prova, no mesmo tempo, a alunos do jardim de infância e a doutorandos, e depois afirmar que «o resultado depende apenas do talento».
Segundo passo: a atenuação da LR que tapa os olhos e orelhas.
Eles usaram decaimento da taxa de aprendizagem cossenoidal (Cosine Decay), fazendo com que a taxa de aprendizagem se aproximasse suavemente de zero perto do final do treino.
Quando o treino se aproximava do final predefinido, a taxa de aprendizagem era artificialmente reduzida a zero, e o progresso do modelo naturalmente «achatava-se».
Quando a curva se achatava, parecia que o modelo já tinha aprendido ao máximo, e alimentá-lo mais não traria benefícios.
Os investigadores concluíram então: «Adicionar dados é inútil, o modelo já satuou.»
Isto não é o limite do modelo, é a taxa de aprendizagem a cortar artificialmente o caminho de crescimento do modelo. Cria uma ilusão perfeita: o desempenho já atingiu o teto, e adicionar dados é inútil.
Mas agora sabemos que esses grandes modelos não tinham chegado ao fim.
Terceiro passo: a arrogância da autoridade.
O terceiro passo, e o mais sinistro: no artigo, escreveram que o resultado «é largamente independente do agendamento da taxa de aprendizagem» (largely independent of learning rate schedule).
Embora muitos, incluindo o então na OpenAI Diogo Almeida, sentissem vagamente que algo estava errado, com um limite fixo de tokens, esta conclusão era tecnicamente correta.
Mas ela simplesmente não se aplicava ao mundo ideal de «dados infinitos» que a scaling law realmente pretendia descrever.
Eles tomaram uma verdade local sob condições limitadas como uma lei universal do cosmos.
Com os três passos combinados, obtém-se uma lei que é errada e extremamente difícil de depurar.
Até o próprio Diogo admite: na altura, ele também estava na OpenAI a fazer otimização e não viu este bug — aquela curva da taxa de aprendizagem parecia demasiado «cuidadosamente definida» para alguém suspeitar.
GPU desperdiçado, grave desajuste de poder computacional
Guiada pela fórmula errada da OpenAI, a indústria de IA entrou numa era de «força bruta faz milagres».
Isto significa que, nos últimos anos, as mentes mais brilhantes do mundo e o poder computacional mais escasso foram desperdiçados em expansões de escala ineficazes.
Não é apenas uma questão de dinheiro; é que, na corrida contra o tempo para a AGI (Inteligência Artificial Geral), a humanidade, devido à definição da taxa de aprendizagem, correu coletivamente milhares de quilómetros na pista errada.
Se a descoberta do bug é de partir o coração, a reflexão profunda que se seguiu é arrepiante.
O investigador Adam Zachary Wasserman apontou um ponto cego ignorado por todos: mesmo corrigindo a fórmula, a atual Scaling Law é apenas a «Scaling Law do inglês».
Ele fez uma experiência contraintuitiva: treinar modelos com a mesma arquitetura e o mesmo poder computacional.
Os resultados mostraram que a eficiência do modelo francês para atingir uma certa capacidade gramatical foi 50 a 100 vezes superior à do modelo inglês.
Porquê? Porque o inglês é uma língua «morfologicamente pobre».
Depende demasiado de padrões distribucionais, exigindo que o modelo adivinhe o significado das palavras em enormes quantidades de dados; enquanto línguas como o francês ou o chinês, ricas em morfologia ou estruturalmente rigorosas, trazem grande quantidade de informação explícita no próprio vocabulário.
Isto significa que todos os nossos esquemas de alocação de poder computacional são baseados numa língua que «consome mais dados» e é a menos eficiente.
Quando pensas que estás a explorar as leis físicas da «inteligência geral», na verdade estás apenas a medir «quanto o inglês desperdiça poder computacional».
Isto é como tentar estabelecer padrões nutricionais para todos os seres do universo estudando o apetite de um porco — não é apenas preconceito, é uma limitação cognitiva.
Podíamos ter alcançado um desempenho superior com modelos mais pequenos e mais dados de qualidade.
Podíamos ter poupado a eletricidade e o calor de dezenas de milhares de horas de funcionamento de H100.
Podíamos ter entrado na era da «IA eficiente» dois anos mais cedo.
Fonte deste artigo: Xin Zhi Yuan
Aviso de riscos e cláusulas de isenção de responsabilidade