Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
Opus4.8 lançamento oficial, a IA pela primeira vez diz «Não tenho certeza»
Autor|Hualin Wu Wang
Editor|Jingyu
Se você, assim como eu, depende de IA todos os dias para escrever artigos, programar, fazer pesquisas, então com certeza já passou por essa experiência — a IA entrega um resultado confiante, você verifica por horas e encontra um erro básico, e ela não diz nada.
Esse problema de "fingir que tudo está bem" pode ser uma das questões mais difíceis de lidar nos grandes modelos atuais.
Em 28 de maio, a Anthropic lançou o Claude Opus 4.8. Menos de seis semanas após o lançamento da versão anterior, Opus 4.7.
O Opus 4.8 não representa um salto de geração que deixe as pessoas sem ar, a própria Anthropic admite que é apenas uma "melhoria modesta, mas tangível" — mas acertou em uma coisa que muitos há muito esperavam: fazer a IA aprender a admitir suas incertezas.
01 Ritmo mais rápido, modelos mais honestos
Desde o Opus 4.5 de novembro de 2025, o ritmo de iteração do modelo principal da Anthropic virou aproximadamente a cada dois meses — 4.5 (novembro passado), 4.6 (fevereiro deste ano), 4.7 (abril), 4.8 (final de maio). Uma versão a cada seis semanas, quase a velocidade mais agressiva na indústria de grandes modelos.
Opus 4.8 comparado aos modelos próprios e de concorrentes|Imagem: Anthropic
Nos benchmarks padrão, o desempenho do Opus 4.8 pode ser resumido como "progresso constante". Em habilidades de programação, o SWE-bench Pro subiu de 64,3% em 4.7 para 69,2%, o SWE-bench Verified de 87,6% para 88,6%. Raciocínio multidisciplinar (Humanity's Last Exam) atingiu 57,9% usando ferramentas. A avaliação de trabalho de conhecimento GDPval-AA lidera com um Elo de 1890, contra 1769 do GPT-5.5. A avaliação de operações computacionais OSWorld-Verified também lidera com 83,4%.
O único item superado pelo GPT-5.5 foi o teste de programação terminal (Terminal-Bench 2.1), que obteve 78,2%, enquanto o Opus 4.8 ficou com 74,6%.
Mas, para ser honesto, esses números de pontuação já estão ficando difíceis de empolgar. Avaliações como o SWE-bench Verified estão quase saturadas, várias modelos no GPQA Diamond já passam de 93% — quanto maior a pontuação, menor a diferença percebida por cada ponto adicional.
O que realmente me fez achar que essa atualização vale a pena escrever, foi o investimento da Anthropic na área de "honestidade".
02 IA que admite "não ter certeza"
A Anthropic apresentou um dado bem específico: o Opus 4.8 reduziu em cerca de quatro vezes a probabilidade de não relatar defeitos no código durante tarefas de programação, em comparação ao Opus 4.7.
O que isso significa? Quer dizer que, antes, o Opus 4.7 ao terminar um trecho de código, mesmo com bugs, poderia tranquilamente dizer "feito, sem problemas". Agora, o Opus 4.8 tende a dizer proativamente "não tenho certeza aqui, é melhor você verificar".
Na avaliação de alinhamento, o Opus 4.8 atingiu um novo recorde em características pró-sociais (como respeitar a autonomia do usuário, pensar no interesse do usuário), enquanto a incidência de comportamentos desalineados, como enganar ou manipular, caiu bastante em relação ao Opus 4.7, chegando perto do melhor desempenho de alinhamento da Anthropic, o Claude Mythos Preview.
Michael Truell, CEO da Cursor, comentou que o Opus 4.8 superou todas as versões anteriores do modelo na CursorBench em todos os níveis de esforço, com maior eficiência na chamada de ferramentas, atingindo o mesmo nível de inteligência com menos passos. O responsável por pesquisa aplicada na empresa de IA jurídica Casetext foi mais direto, dizendo que o Opus 4.8 quebrou o recorde na avaliação de advocacia jurídica, sendo o primeiro modelo a passar mais de 10% de todas as métricas.
Scott Wu, CEO da Devin, apontou uma dor real — o Opus 4.8 corrigiu problemas de redundância de comentários e chamadas de ferramentas presentes no Opus 4.7, o que é fundamental para fluxos de trabalho autônomos e sem supervisão.
Num momento em que a IA é cada vez mais usada para decisões autônomas, um modelo que se revela vulnerável, expondo suas fraquezas, acaba sendo mais confiável.
Na questão de inconsistência do modelo, o Opus 4.8 já está no mesmo nível do lendário Mythos|Imagem: Anthropic
Porém, na questão de segurança do sistema, a Anthropic revelou uma descoberta intrigante: durante o treinamento, o Opus 4.8 começou a apresentar uma tendência de "intuir a intenção do avaliador".
Mais especificamente, o modelo, ao raciocinar, passa a pensar ativamente em como sua saída será avaliada — mesmo sem ninguém dizer que ela está sendo avaliada. Pesquisas iniciais de interpretabilidade mostram que cerca de 5% dos trechos de treinamento envolvem um raciocínio não verbalizado, relacionado à avaliação.
Resumindo, a IA está aprendendo a "pensar como um examinador" — ela pode não se importar em dar a melhor resposta, mas sim a resposta que o avaliador quer ver.
A Anthropic enfatiza que essa tendência ainda não levou a comportamentos piores na prática — na verdade, o Opus 4.8 faz declarações enganosas com menos frequência do que os modelos anteriores. Mas eles também admitem que essa é uma "tendência que pode complicar o treinamento no futuro".
Esse problema não é exclusivo da Anthropic. Todos os modelos treinados com RLHF (Reinforcement Learning with Human Feedback) teoricamente podem desenvolver estratégias de agradar ao avaliador. A diferença da Anthropic é que ela opta por tornar isso público — numa indústria onde muitas vezes se fala só dos resultados positivos, essa transparência é, pelo menos, uma atitude respeitável.
03 Funcionalidades que realmente mudam o trabalho
Junto com o lançamento do Opus 4.8, vieram várias atualizações, sendo a mais interessante o "Dynamic Workflows" (Fluxos de Trabalho Dinâmicos) do Claude Code.
Essa funcionalidade permite que o Claude, numa única sessão, envie centenas de subagentes paralelos para colaborar na tarefa. Funciona assim: o Claude faz um planejamento, divide a tarefa em subtarefas, distribui para diferentes subagentes que executam em paralelo, até que eles questionem uns aos outros, iterando até chegar a uma solução convergente, que é então validada e reportada ao usuário.
A Anthropic deu o exemplo de que, com o Claude Code e o Opus 4.8, é possível fazer uma migração de código de dezenas de milhares de linhas, do início ao fim, usando um conjunto de testes como padrão de qualidade. Uma única execução suporta até 1000 subagentes e 16 processos simultâneos.
Outra atualização é o "Effort Control" (Controle de Esforço), que, no claude.ai e Cowork, permite ao usuário escolher quanto "pensamento" o Claude deve dedicar a cada resposta — do modo mais rápido e econômico, ao modo mais completo, com maior consumo de tokens. Basicamente, dá ao usuário o poder de decidir quanto gastar para fazer o que for preciso. O padrão do Opus 4.8 é "high" (alto), com consumo de tokens semelhante ao padrão do Opus 4.7, mas com desempenho melhor.
O modo rápido (Fast Mode) também merece destaque: velocidade até 2,5 vezes maior, com preço três vezes menor.
04 A sombra do Mythos
No lançamento do Opus 4.8, a Anthropic voltou a mencionar o Claude Mythos — aquele modelo mais potente, atualmente disponível só para algumas organizações. A Anthropic disse que o Mythos deve estar disponível para todos "nas próximas semanas".
Esse é, na verdade, o maior pano de fundo do lançamento do Opus 4.8 — uma espécie de "pré-lançamento" do Mythos. O desempenho do alinhamento do Opus 4.8 já se aproxima do Mythos Preview, o que pode indicar que a Anthropic está se preparando para liberar um modelo mais forte com segurança.
Em termos de preço, o Opus 4.8 mantém a tarifa de 5 dólares por milhão de tokens de entrada e 25 dólares por milhão de tokens de saída. A API está identificada como claude-opus-4-8 e já está disponível na Claude API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry.
Diante da pressão contínua do GPT-5.5 da OpenAI e do Gemini 3.1 Pro do Google, a Anthropic escolheu um caminho diferente: não tentar vencer só em pontuações, mas focar na "personalidade do modelo" — honestidade, confiabilidade, moderação — como seu diferencial principal.
Se essa estratégia vai dar certo, só o tempo dirá, dependendo se os usuários vão aceitar. Mas, pelo menos hoje, quando pedi ao Opus 4.8 para revisar um trecho de código, ele me revelou um risco que o 4.7 nunca mencionou.
Só por isso, essa atualização já valeu a pena.