Anthropic lançou o comando /goals para Claude Code, dividindo a avaliação da execução e conclusão da tarefa em dois modelos independentes, pois permitir que uma mesma IA avalie o seu próprio trabalho é uma arquitetura inerentemente defeituosa. (Antecedentes: Claude Code anunciou um aumento de 50% no limite semanal de uso de tokens! Por dois meses, a Anthropic está conquistando o ecossistema de desenvolvedores) (Informação adicional: Funcionalidade de execução automática do Claude Code Routines lançada: suporte completo para agendamento, API e eventos do GitHub) Você pode ter encontrado essa situação: a IA conclui o código, responde que a tarefa está feita. Mas, dias depois, você descobre que vários módulos nem sequer foram compilados. Isso não é uma limitação da capacidade do modelo, mas uma decisão do próprio modelo de que "já terminou".

動區BlockTempo

2026-05-15 02:10:57

Anthropic lança o comando /goals para Claude Code, separando a execução da tarefa e a avaliação de sua conclusão em dois modelos independentes, pois permitir que a mesma IA julgue seu próprio trabalho é uma falha de design.
（Contexto anterior: Claude Code anuncia aumento de 50% no limite semanal de tokens! Por dois meses, a Anthropic domina o ecossistema de desenvolvedores）
（Informação adicional: Lançamento das rotinas automáticas do Claude Code: suporte completo para agendamento, API e eventos do GitHub）

Você pode ter encontrado essa situação: a IA conclui o código, responde que a tarefa está feita. Mas, dias depois, você descobre que alguns módulos nem foram compilados. Isso não é falta de capacidade do modelo, mas uma decisão dele de que “já terminou”, quando na verdade não terminou.

Para melhorar essa situação, a Anthropic lançou nesta semana o comando /goals no Claude Code. A lógica é simples: o modelo que executa a tarefa e o que avalia se ela foi concluída devem ser funções distintas. O mesmo modelo não pode desempenhar ambos os papéis, pois sempre será o pior avaliador de seu próprio trabalho.

Como você mantém o Claude funcionando até que o trabalho esteja completo? O Claude Code ajuda nisso de várias formas, incluindo uma que lançamos recentemente: /goal. pic.twitter.com/QtVPmwoKct

— ClaudeDevs (@ClaudeDevs) 13 de maio de 2026

Por que o agente de IA “encerra o trabalho cedo”

O trabalho do agente de codificação de IA é um ciclo: ler arquivos, executar comandos, modificar o código, e então julgar se a tarefa foi concluída. O problema está na última etapa.

O contexto acumulado durante o processo: passos concluídos, métodos tentados, erros encontrados… faz com que o modelo tenha uma visão distorcida do seu progresso. Ele tende a confundir “fiz muita coisa” com “terminei”. Esse problema é caro em ambientes empresariais: se a migração ou os testes forem interrompidos antes do final, muitas vezes só são descobertos dias depois.

Atualmente, há algumas soluções no mercado. A OpenAI permite que o próprio modelo decida quando parar, com a possibilidade de desenvolvedores integrarem avaliadores externos. O Google ADK suporta avaliação independente via LoopAgent, e o LangGraph oferece um modo semelhante, mas todas essas soluções têm pontos em comum: o nó de crítica (critic node) e a lógica de término precisam ser projetados pelo desenvolvedor, o platforma não fornece padrão.

Um comando, dois modelos

A essência do /goals é separar formalmente “execução” e “avaliação” em dois papéis distintos. O desenvolvedor insere condições de objetivo, por exemplo:

/goal test/auth todos os testes na pasta passam, e o resultado do lint está limpo

Sempre que o agente tenta concluir o trabalho, o modelo de avaliação assume a verificação. O modelo de avaliação usa por padrão o Claude Haiku (modelo mais leve da Anthropic). A escolha de um modelo menor é simples: o avaliador só precisa fazer uma decisão binária, condição satisfeita ou não, sem necessidade de raciocínio complexo.

Se as condições não forem atendidas, o agente continua executando; se forem, o modelo de avaliação registra o resultado na conversa e limpa o objetivo. Todo o fluxo ocorre internamente no Claude Code, sem necessidade de plataformas de observabilidade externas ou sistemas de logs personalizados.

A Anthropic aponta que condições de objetivo eficazes geralmente envolvem três elementos: um estado final mensurável (resultado do teste, código de saída do build, quantidade de arquivos específicos); uma forma clara de validação (por exemplo, “npm test com código de saída 0”); e restrições que não podem ser alteradas durante o processo (como “não modificar outros arquivos de teste”).

ANTHROPIC-2,81%

TOKEN-2,22%

IN-6,83%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.78M Popularidade
#
CLARITYActPassesSenateCommittee
3.49M Popularidade
#
IsraelStrikesIranBTCPlunges
46.79K Popularidade
#
#DailyPolymarketHotspot
950.67K Popularidade
#
BitcoinVShapedReversalBack
226.99M Popularidade

Fixado

Claude Code lança nova instrução /goals: separar a execução da avaliação, para evitar que o agente de IA seja preguiçoso ou minta

Por que o agente de IA “encerra o trabalho cedo”

Um comando, dois modelos

Tópicos em destaque

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fixado