Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Ações da Coreia
SK Hynix
Negocie ações da Coreia reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gate Wealth
Assuma o controle do seu futuro financeiro
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 9% a.a.
Stake em 1 clique, ganhos diários
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
OpenAI desabou! Bug exposto na obra original da Scaling law, todo o poder computacional de trilhões queimado.
OpenAI enganou todo o círculo de IA por anos!
Nos últimos cinco anos, toda a indústria de IA foi impulsionada pela Scaling Law.
A confiança de Altman na AGI vem dessa curva.
Agora, alguém se levanta e diz: essa curva estava errada desde o início.
Não é um arrependimento tardio. Quem diz isso é o pesquisador Diogo Almeida, que na época já otimizava grandes modelos na OpenAI.
Agora mesmo, ele publicou um blog com um título gelado — "Scaling Laws, Honestly".
A primeira frase já diz tudo: a versão original da scaling law estava errada, porque havia um bug.
O Sander Dieleman, da DeepMind, que se tornou famoso pelos modelos de difusão, logo o compartilhou no Twitter, dizendo que é uma história interessante dos LLMs:
Um bug, dois anos perdidos.
Quando o bug foi exposto, vimos não apenas um buraco negro de poder computacional, mas também uma fronteira de inteligência muito mais profunda do que se imaginava, remodelada pela própria linguagem.
Scaling Law era a "teoria geocêntrica" dos LLMs
Em 2020, a OpenAI concluiu: com um orçamento computacional fixo, você deve priorizar tornar o modelo maior, em vez de alimentá-lo com mais dados.
Em fórmulas, o número ótimo de parâmetros é proporcional à 0,73ª potência do poder computacional — os parâmetros são a variável que deve ser aumentada agressivamente.
Essa frase definiu diretamente a aparência da geração GPT-3. Empilhar parâmetros. Empilhar até a morte. 175 bilhões.
Ela disse aos desenvolvedores do mundo inteiro: não pergunte, a resposta é empilhar parâmetros; contanto que você torne o modelo grande o suficiente, milagres acontecerão.
Dois anos depois, a DeepMind lançou o Chinchilla, virando essa conclusão de cabeça para baixo: modelo e dados devem ser ampliados juntos com aproximadamente a mesma importância, cerca de 20 tokens por parâmetro é o ideal.
Eles treinaram um Chinchilla de 70 bilhões de parâmetros, alimentado com 1,4 trilhão de tokens — menos da metade do tamanho do GPT-3, mas com mais de quatro vezes os dados.
Resultado: com o mesmo orçamento computacional, superou completamente o Gopher de 280 bilhões de parâmetros que foi alimentado com apenas 300 bilhões de tokens.
Traduzindo para o português: com o mesmo dinheiro, um criou um "grandalhão inchado", o outro treinou um lutador enxuto.
Três anos depois, a ex-aluna da Universidade de Pequim, Weng Li, discutiu em profundidade a explicação mainstream nas pesquisas subsequentes para a diferença entre os dois, ou seja, a diferença está na forma como calculam o número total de parâmetros.
E isso não acabou. Até mesmo o Chinchilla "correto" não está limpo.
Em 2024, Besiroglu e outros pegaram os pontos de dados do artigo original do Chinchilla e os reexecutaram, descobrindo que sua própria abordagem de ajuste também continha um bug:
Neste ponto, aquele "primeiro princípio" que tantos repetem de repente não se sustenta mais.
A chamada Scaling Law nunca foi uma lei física sólida como as três leis de Newton; é apenas uma curva ajustada empiricamente.
Quando Diogo Almeida acredita que a verdade não é essa, não é que o método seja diferente, "é que a versão original da scaling law tinha um bug."
OpenAI enganou toda a comunidade global de IA com três truques?
Para criar uma mentira que fizesse toda a comunidade global de IA acreditar, bastam três passos.
Primeiro passo: aprisionar os dados.
O artigo da OpenAI alimentou todos os modelos — independentemente de serem crianças aprendendo a andar (modelos pequenos) ou gigantes já crescidos — com exatamente a mesma "quantidade de comida". Cerca de 130 bilhões de tokens de dados.
Modelos pequenos foram assim "alimentados" ou até "estufados", enquanto os grandes modelos, que realmente precisam de enormes quantidades de dados para preencher sua capacidade, sofreram de desnutrição grave com o mesmo orçamento de tokens.
O artigo do Chinchilla posteriormente apontou com precisão: eles usaram para todos os modelos um "número fixo de tokens de treinamento e cronograma de taxa de aprendizado." (fixed number of training tokens and learning rate schedule).
Isso é como fazer crianças do jardim de infância e doutorandos usarem a mesma prova no mesmo tempo e depois declarar que "o desempenho só está relacionado ao talento."
Segundo passo: a decadência da taxa de aprendizado que tapa os ouvidos enquanto rouba o sino.
Eles usaram a decadência cosseno da taxa de aprendizado (Cosine Decay), fazendo com que a taxa de aprendizado se aproxime suavemente de zero quando o treinamento está perto do fim.
Quando o treinamento se aproxima do fim predefinido, a taxa de aprendizado é artificialmente reduzida a zero aos poucos, e o progresso do modelo naturalmente "achata".
Quando a curva se achata, parece que o modelo já aprendeu tudo que podia, alimentar mais não adianta.
Os pesquisadores então concluíram: "adicionar dados não adianta, o modelo já está saturado."
Isso não é o limite do modelo, é a taxa de aprendizado cortando artificialmente o caminho de crescimento do modelo. Ela cria uma ilusão perfeita: o desempenho já atingiu o teto, adicionar dados é inútil.
Mas agora sabemos que aqueles grandes modelos não chegaram ao fim.
Terceiro passo: a arrogância da autoridade.
O terceiro passo, também o mais perverso: o artigo escreveu que os resultados são "em grande parte independentes do cronograma da taxa de aprendizado."
Embora muitas pessoas, incluindo Diogo Almeida que estava na OpenAI na época, sentissem vagamente que algo estava errado, sob o limite fixo de tokens, essa conclusão era tecnicamente correta.
Mas ela simplesmente não se aplica ao mundo ideal de "dados infinitos" que a scaling law realmente queria descrever.
Eles tomaram uma verdade parcial sob condições limitadas como uma lei universal do cosmos.
Com os três passos combinados, você obtém uma lei que é ao mesmo tempo errada e extremamente difícil de depurar.
Até o próprio Diogo admite: na época ele também fazia otimização na OpenAI e não percebeu esse bug — a curva de taxa de aprendizado parecia tão "cuidadosamente ajustada" que ninguém iria suspeitar.
GPUs desperdiçadas inutilmente, alocação computacional severamente desajustada
Guiada pela fórmula errada da OpenAI, a indústria de IA entrou na era de "muita força gera milagres."
Isso significa que nos últimos anos, as mentes mais brilhantes do mundo e o poder computacional mais escasso foram desperdiçados em expansões de escala ineficazes.
Não é apenas uma questão de dinheiro; é que, na corrida de velocidade pela AGI (Inteligência Artificial Geral), a humanidade, devido às configurações da taxa de aprendizado, correu coletivamente milhares de quilômetros na pista errada.
Se a descoberta do bug é dolorosa, a reflexão profunda que se seguiu é arrepiante.
O pesquisador Adam Zachary Wasserman apontou um ponto cego ignorado por todos: mesmo com a fórmula corrigida, a atual Scaling Law é apenas a "Scaling Law do inglês".
Ele fez um experimento contraintuitivo: treinar modelos com a mesma arquitetura e o mesmo poder computacional.
Descobriu que a eficiência dos modelos de francês para atingir certa capacidade gramatical é de 50 a 100 vezes maior do que a dos modelos de inglês.
Por quê? Porque o inglês é uma língua "morfologicamente pobre".
Ela depende muito de padrões distribucionais, exigindo que o modelo adivinhe o significado das palavras em meio a enormes quantidades de dados; enquanto línguas como francês e chinês, que são morfologicamente ricas ou estruturalmente rígidas, trazem muitas informações explícitas nas próprias palavras.
Isso significa que todos os nossos atuais planos de alocação de poder computacional são baseados em uma língua que mais "consome dados" e é a menos eficiente.
Quando você pensa que está explorando as leis físicas da "inteligência geral", na verdade está apenas medindo "o quanto o inglês desperdiça poder computacional."
Isso é como tentar estabelecer um padrão nutricional para todos os seres do universo estudando o apetite de um porco — não é apenas preconceito, é uma limitação cognitiva.
Poderíamos ter usado modelos menores e mais dados de qualidade para alcançar desempenho superior.
Poderíamos ter economizado eletricidade e calor de dezenas de milhares de horas de operação de H100.
Poderíamos ter entrado na era da "IA eficiente" dois anos antes.
Fonte deste artigo: Xin Zhi Yuan
Aviso de Risco e Termos de Isenção de Responsabilidade