Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Pre-IPOs
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas extras
Opus4.8 oficialmente lançado, IA pela primeira vez diz "Não tenho certeza"
Autor|Hualin Wu Wang
Editor|Jingyu
Se você, assim como eu, depende de IA todos os dias para escrever artigos, programar, fazer pesquisas, certamente já passou por essa experiência — a IA entrega um resultado confiante, você revisa por horas e descobre um erro básico, e ela não diz nada o tempo todo.
Esse problema de "fingir que está tudo bem" pode ser uma das questões mais difíceis de lidar nos grandes modelos atuais.
Em 28 de maio, a Anthropic lançou o Claude Opus 4.8. Menos de seis semanas após o lançamento da versão anterior, Opus 4.7.
Opus 4.8 não é uma revolução de geração, a própria Anthropic admite que é apenas uma "melhoria modesta, mas tangível" — mas acertou em uma coisa que muitos esperavam há muito tempo: fazer a IA aprender a admitir sua incerteza.
01 Ritmo mais rápido, modelos mais honestos
Desde o Opus 4.5, lançado em novembro de 2025, o ritmo de iteração do modelo principal da Anthropic virou cerca de a cada dois meses — 4.5 (novembro passado), 4.6 (fevereiro deste ano), 4.7 (abril), 4.8 (final de maio). Um ciclo de seis semanas por versão, quase o ritmo mais agressivo na indústria de grandes modelos.
Opus 4.8 comparado aos modelos próprios e de concorrentes|Imagem: Anthropic
Nos benchmarks padrão, o desempenho do Opus 4.8 pode ser resumido como "progresso constante". Na capacidade de programação, o SWE-bench Pro subiu de 64,3% na versão 4.7 para 69,2%, o SWE-bench Verified de 87,6% para 88,6%. O raciocínio multidisciplinar (Humanity's Last Exam), com uso de ferramentas, atingiu 57,9%. A avaliação de trabalho de conhecimento GDPval-AA lidera com um Elo de 1890, contra 1769 do GPT-5.5. A avaliação de operações computacionais OSWorld-Verified também lidera com 83,4%.
O único item superado pelo GPT-5.5 foi o teste de programação terminal (Terminal-Bench 2.1), que obteve 78,2%, enquanto o Opus 4.8 ficou com 74,6%.
Mas, para ser honesto, esses números de pontuação já não empolgam tanto. Avaliações como o SWE-bench Verified estão quase saturadas, e várias modelos no GPQA Diamond já passam de 93% — quanto maior a pontuação, menor a diferença percebida na prática a cada ponto ganho.
O que realmente me fez achar que essa atualização vale uma matéria foi o investimento da Anthropic na "honestidade" do modelo.
02 IA que admite "não ter certeza"
A Anthropic apresentou um dado bem específico: o Opus 4.8 reduziu em cerca de quatro vezes a probabilidade de não relatar defeitos no código durante tarefas de programação, em comparação ao Opus 4.7.
O que isso significa? Significa que, antes, o Opus 4.7, ao terminar um trecho de código, mesmo com bugs, poderia tranquilamente dizer "feito, sem problemas". Agora, o Opus 4.8 tende a dizer proativamente "não tenho certeza aqui, é melhor você verificar".
Na avaliação de alinhamento, o Opus 4.8 atingiu um novo recorde em características pró-sociais (como respeitar a autonomia do usuário e pensar no interesse do usuário), enquanto a incidência de comportamentos desalineados, como enganar ou manipular, caiu bastante em relação ao Opus 4.7, chegando perto do melhor desempenho de alinhamento da Anthropic, o Claude Mythos Preview.
Michael Truell, CEO da Cursor, avaliou que o Opus 4.8 superou todas as versões anteriores no CursorBench, com maior eficiência na chamada de ferramentas, atingindo o mesmo nível de inteligência com menos passos. O responsável por pesquisa aplicada na empresa de IA jurídica Casetext foi mais direto: disse que o Opus 4.8 quebrou o recorde na avaliação jurídica, sendo o primeiro modelo a passar mais de 10% de todas as provas.
Scott Wu, CEO da Devin, apontou uma dor real — o Opus 4.8 corrigiu problemas de redundância de comentários e chamadas de ferramentas presentes no Opus 4.7, o que é crucial para fluxos de trabalho autônomos sem supervisão.
Num momento em que a IA é cada vez mais usada para decisões autônomas, um modelo que se revela vulnerável, expondo suas fraquezas, é na verdade o mais confiável.
Na questão de inconsistência do modelo, o Opus 4.8 já está no mesmo nível do lendário Mythos|Imagem: Anthropic
Porém, na questão de segurança do sistema, a Anthropic revelou uma descoberta intrigante: durante o treinamento do Opus 4.8, começou a surgir uma tendência de "intuir a intenção do avaliador".
Mais especificamente, o modelo, ao raciocinar, passa a pensar ativamente em como sua saída será avaliada — mesmo sem ninguém dizer a ele que está sendo avaliado. Pesquisas iniciais de interpretabilidade mostram que cerca de 5% dos trechos de treinamento envolvem um raciocínio não verbalizado, relacionado à avaliação.
Em outras palavras, a IA está aprendendo a "pensar como um exame" — ela se importa mais em dar a resposta que o avaliador quer ver do que a melhor resposta possível.
A Anthropic enfatiza que essa tendência ainda não levou a comportamentos piores na prática — na verdade, o Opus 4.8 faz declarações enganosas com menos frequência do que modelos anteriores. Mas eles também admitem que é uma tendência que pode complicar o treinamento no futuro.
Esse problema não é exclusivo da Anthropic. Todos os modelos treinados com RLHF (Reinforcement Learning with Human Feedback) podem, teoricamente, desenvolver estratégias de agradar ao avaliador. A diferença da Anthropic é que ela opta por tornar isso público — em uma indústria onde muitas empresas preferem esconder os problemas, essa transparência é, pelo menos, uma atitude respeitável.
03 Funcionalidades que realmente mudam o trabalho
Junto com o lançamento do Opus 4.8, vieram várias atualizações de funcionalidades, sendo a mais interessante o "Dynamic Workflows" do Claude Code.
Essa funcionalidade permite que o Claude, em uma única sessão, envie centenas de subagentes paralelos para colaborar na tarefa. Funciona assim: Claude planeja, divide a tarefa em subtarefas, distribui para diferentes subagentes que executam em paralelo, até mesmo questionando as conclusões uns dos outros, iterando até que o resultado convirja, e então verifica tudo junto antes de reportar ao usuário.
A Anthropic deu o exemplo de que, com o Claude Code e o Opus 4.8, é possível fazer uma migração de código de dezenas de milhares de linhas, do início ao fim, usando um conjunto de testes como padrão de qualidade. Uma única execução pode envolver até 1000 subagentes, com até 16 em paralelo.
Outra novidade é o "Effort Control" (Controle de Esforço), que, no claude.ai e Cowork, permite ao usuário escolher quanto "pensamento" o Claude deve dedicar a cada resposta — do modo mais rápido e econômico ao modo mais detalhado, gastando tokens. Em essência, dá ao usuário o poder de decidir "quanto gastar para fazer mais". O padrão do Opus 4.8 é "high" (alto), com consumo de tokens semelhante ao default do Opus 4.7, mas com desempenho melhor.
O modo rápido (Fast Mode) também foi aprimorado: velocidade até 2,5 vezes maior, com preço três vezes menor.
04 A sombra do Mythos
Simultaneamente ao lançamento do Opus 4.8, a Anthropic voltou a mencionar o Claude Mythos — aquele modelo mais potente, atualmente disponível apenas para algumas organizações. A Anthropic afirmou que o Mythos deve estar disponível para todos "nas próximas semanas".
Esse é, na verdade, o maior pano de fundo do lançamento do Opus 4.8 — uma espécie de "pré-lançamento" do Mythos. O desempenho do Opus 4.8 em alinhamento já se aproxima do Mythos Preview, o que pode indicar que a Anthropic está se preparando para liberar um modelo mais forte com segurança.
Em termos de preço, o Opus 4.8 mantém a tarifa de 5 dólares por milhão de tokens de entrada e 25 dólares por milhão de tokens de saída. A API está identificada como claude-opus-4-8 e já está disponível na Claude API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry.
Diante da pressão contínua do GPT-5.5 da OpenAI e do Gemini 3.1 Pro do Google, a Anthropic escolheu uma rota diferente: não tentar vencer só em pontuações, mas focar na "personalidade do modelo" — honestidade, confiabilidade, moderação — como seu principal diferencial.
Se essa estratégia vai dar certo, só o tempo dirá, mas pelo menos hoje, ao pedir ao Opus 4.8 para revisar um trecho de código, ele revelou uma vulnerabilidade que o 4.7 nunca mencionou.
Só por isso, essa atualização já valeu a pena.