Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas extras
Por que você deve aprender Engenharia de Harness? 5 produtos, 3 escolas, 5 princípios universais explicados completamente
Sistema desmembrado Engenharia Harness: 5 produtos, 3 escolas (OpenAI / Anthropic / ThoughtWorks), 5 princípios universais, e por que a "Declínio do Harness" te obriga a cortar metade do projeto a cada 6 meses.
Este artigo é originado do artigo de @sairahul1 no X, organizado e compilado pelo Dongqu.
(Resumindo: Introdução à Engenharia Harness (Engenharia de IA): Padrões de programação mais recentes da OpenAI, ensinando você a alcançar facilmente o Nível 1)
(Complemento de contexto: CEO do YC compartilha segredos de IA: o futuro pertence às pessoas que constroem sistemas de juros compostos de informação)
Índice do artigo
Toggle
Em fevereiro de 2026, um pequeno time da OpenAI produziu 1 milhão de linhas de código de produção.
Eles não escreveram uma linha.
Foi um agente de IA que escreveu.
O sistema que eles projetaram é para tornar o agente confiável.
Esse sistema agora tem nome — Engenharia Harness.
Em poucas semanas, a Anthropic publicou 3 artigos relacionados. ThoughtWorks organizou em um quadro. Philipp Schmid, da Hugging Face, chamou de "A disciplina mais importante de 2026".
Em 90 dias, uma nova disciplina de engenharia se formou. E fora da equipe de infra de IA, quase ninguém entendeu.
Este artigo explica tudo claramente. Sem enrolação, sem jargões acadêmicos, apenas o modelo mental que você realmente precisará usar.
1. Definição de Harness
A definição mais simples dada pela ThoughtWorks:
Harness é tudo que está fora do modelo.
Remover harness → um modelo de linguagem no seu código que só adivinha.
Adicionar o harness correto → um sistema capaz de gerar código de produção.
Esse nome vem de arreios. Harness são rédeas, sela, bridão — direcionando um animal forte, mas difícil de prever, para um caminho útil.
Você não está tornando o cavalo mais inteligente, está criando um equipamento que torna sua força útil.
2. Metáfora de OS
Philipp Schmid dá a melhor metáfora técnica: Imagine como um computador.
| Papel | Correspondente | | --- | --- | | Modelo | CPU (poder de processamento bruto) | | Janela de contexto | RAM (memória de trabalho limitada e volátil) | | Harness | Sistema operacional (gerencia o que o CPU vê e quando vê) | | Agente | Aplicativo rodando em cima |
Seu modelo é forte. Mas sem um sistema operacional para gerenciar memória, agendar tarefas, aplicar regras — ele é apenas um pedaço de silício.
A maioria roda aplicativos "sem sistema operacional". Então, seu agente quebra na linha de produção.
3. O que mudou em 2026
LangChain usou o mesmo modelo duas vezes no Terminal Bench 2.0:
| Harness | Pontuação | | --- | --- | | Harness antigo | 52.8% | | Novo harness | 66.5% |
Mesmo modelo. Harness diferente. Uma diferença de 13,7 pontos percentuais.
Vercel fez o oposto — reduziu ferramentas do agente em 80%. Resultado? Melhor, não pior.
A dura verdade de 2026:
Se 2025 foi o ano em que agentes de IA provaram que podem programar, 2026 é o ano em que se descobriu que o "ambiente" é mais importante que o "modelo".
4. Arquivos AGENT.md / CLAUDE.md
Produtos mais comuns de harness.
Arquivos markdown dispersos no código. Cada sessão do agente começa lendo — como um documento de onboarding de um novo funcionário.
O que eles contêm?
OpenAI chama de AGENT.md. Anthropic chama de CLAUDE.md. Cursor usa .cursorrules.
Nomes diferentes, mesmo princípio. Um por módulo principal. Atualizado conforme o projeto evolui.
Sem ele: o agente inicia cada sessão às cegas. Com ele: o agente entra com informações já carregadas.
5. Listas de Recursos JSON (Rastreador de progresso)
Quando o agente cruza várias sessões para construir um app completo, a janela de contexto de cada sessão fica vazia. Como ele sabe o que já foi feito?
Um arquivo JSON.
Cada entrada descreve:
A sessão do agente começa lendo esse arquivo — priorizando o fail mais alto → implementa → marca como pass → commita → repete.
Por que JSON e não Markdown?
Anthropic descobriu: a probabilidade de o agente sobrescrever JSON acidentalmente é menor do que de sobrescrever Markdown.
Detalhes pequenos, mas cruciais em cenários de autonomia de 6 horas.
6. Rotina de inicialização de sessão
Cada sessão começa do mesmo jeito, toda vez.
Os 7 passos de Anthropic para iniciar:
Sem isso: os primeiros 20 minutos do agente são gastar entendendo o estado atual, repetindo o ciclo. Com isso: o agente entra com informações e já vai direto ao trabalho.
7. Contratos de Sprint
Antes de escrever qualquer linha de código — dois agentes negociam primeiro.
Agente Gerador propõe:
Agente Avaliador revisa:
Se ambos concordarem, o código é escrito.
É uma revisão de projeto. Mas ambos são IA.
Por que é importante
No mesmo ciclo, planejar e executar com o mesmo agente gera resultados pouco confiáveis.
A etapa de "planejar" — mesmo que feita por IA — aumenta muito a qualidade do output.
8. Modelos de tarefas estruturadas
Antes de qualquer código, o harness analisa o código real.
Ele gera um mapa de impacto fundamentado:
Depois começa a implementação.
Parece óbvio, mas a maioria das equipes pula essa etapa.
O agente tenta adivinhar a estrutura de arquivos, inventa APIs inexistentes, cria coisas que não combinam com o código real.
Ter um contexto fundamentado antes de agir melhora muito a qualidade do output.
9. Escola da OpenAI: Prioridade ao ambiente
O time do Codex da OpenAI tem um problema absurdo:
Num projeto desse tamanho, não dá para revisar linha por linha. Então, eles não fazem isso.
Em vez disso — eles projetam o ambiente de forma tão completa que o agente gera "saídas passíveis de revisão" desde o início.
Como eles fazem
Filosofia: Projete o ambiente. Depois deixe o agente rodar.
Evidências
App Sora Android. 4 engenheiros. 28 dias. Top da Play Store. 99,9% sem falhas.
Codex processa 70% dos PRs internos semanalmente.
10. Escola da Anthropic: Separar "fazer" e "avaliar"
Outro problema que eles enfrentam:
Quando pedem ao agente que avalie sua própria saída, ele se elogia — mesmo que a qualidade seja claramente medíocre aos olhos humanos.
Autoavaliação não funciona. O agente é ao mesmo tempo aluno e professor, e dá nota máxima a si mesmo.
Como eles resolvem: 3 agentes especializados
| Agente | Função | | --- | --- | | Planner | Transforma um prompt de 2 frases em especificação completa do produto | | Generator | Implementa uma feature por sprint | | Evaluator | Usa testes automatizados no navegador, como um usuário real |
Insight: Ter um "avaliador independente" mais exigente é muito mais fácil do que fazer o gerador ser exigente com seu próprio trabalho.
Resultados (Testes A/B)
| Configuração | Custo | Tempo | Resultado | | --- | --- | --- | --- | | Um agente (sem harness) | $9 | 20 min | App quebrado | | Harness completo | $200 | 6 horas | Software funcional + UI refinada |
11. Escola da ThoughtWorks: Quadro 2×2
ThoughtWorks aborda de diferentes ângulos — eles não estão criando produtos, mas analisando por que mais de 50 equipes de engenharia falham no mesmo ponto.
Como eles veem: classificando cada controle de harness com dois eixos
Eixo 1: Quando funciona?
Eixo 2: Como funciona?
Matriz 2×2
| |
| --- | --- | | Feedforward (orientações) |
| Feedback (sensores) |
| --- | --- | --- | | Computacional | Verificador de tipos, regras de arquitetura, suíte de testes, cobertura, testes de mutação |
| Inferencial | Documentos de especificação, restrições, revisores de código LLM, verificadores de comportamento |
Feedforward e feedback, usados isoladamente, não funcionam. Ambos são necessários.
12. Princípio 1: Contexto supera instrução
Diferentes equipes, mesma descoberta:
Conectar ao arquivo real → adaptar ao código.
De descrições vagas → caminhos ilusórios e APIs inventadas.
Antes de digitar, garanta que o agente saiba onde está.
13. Princípio 2: Planejamento e execução devem ser separados
Cada abordagem descobriu: executar planejamento e execução na mesma rodada gera resultados pouco confiáveis.
Planejar não precisa ser feito por humanos, mas deve ser uma etapa separada, e seu resultado precisa ser revisado antes de começar a implementar.
14. Princípio 3: Laços de feedback são essenciais
Três escolas, mesma regra, três abordagens:
| Escola | Fonte de feedback | | --- | --- | | OpenAI | Testes automatizados + CI | | Anthropic | Outro LLM | | ThoughtWorks | Uso combinado de ambos |
Eles divergem em "quem fornece feedback". Mas concordam que feedback é necessário.
15. Princípio 4: Faça uma coisa de cada vez
Tentar fazer muitas coisas ao mesmo tempo faz:
A rotina da Anthropic: ler o progresso → escolher UMA feature → implementar → commitar → repetir.
"Princípio do progresso incremental" é uma característica comum de todos os harness bem-sucedidos.
16. Princípio 5: O código é o próprio documento
Ninguém vai manter uma base de conhecimento separada para o agent. O repositório é a única verdade.
Se uma regra, restrição ou decisão arquitetônica não estiver no código, o agent não vai saber.
Implicações práticas
17. O declínio do Harness (Harness Decay) é real
Quando a Anthropic atualizou do Opus 4.5 para o Opus 4.6 — a decomposição do sprint (antes essencial) virou peso morto.
A capacidade de planejamento do modelo melhorou, tornando essa parte redundante.
Componentes que suportavam o harness em março, em abril viraram sobrecarga.
Depois, com o lançamento do Opus 4.7 — o modelo começou a verificar suas próprias saídas, e a responsabilidade do agente avaliador diminuiu novamente.
Isso é o declínio do Harness
| Versão do modelo | Estado do harness | | --- | --- | | Opus 4.5 | Divisão de sprint + avaliação de cada sprint | | Opus 4.6 | Sem divisão de sprint + avaliação única (38% de economia de custos) | | Opus 4.7 | Auto-verificação do modelo → papel do avaliador reduzido |
Construir para deletar (Build to Delete)
Philipp Schmid sugere: "Construir para deletar."
Ao projetar cada componente do harness, já pense em removê-lo.
Teste periodicamente cada componente — desligue-o e veja se a qualidade do output muda.
Se não mudar, apague.
| Equipe | Reestruturações em 6 meses | | --- | --- | | Manus | Reestruturou harness 5 vezes | | LangChain | Reestruturou 3 vezes em 1 ano | | Vercel | Cortou 80% das ferramentas → melhor desempenho |
Essas ações não indicam má engenharia. São o resultado natural de "sobrepor coisas em modelos que evoluem rapidamente".
Realidade de custos
Números honestos do teste A/B da Anthropic:
| Configuração | Custo | Tempo | Resultado | | --- | --- | --- | --- | | Um agente (sem harness) | $9 | 20 min | UI alterada, núcleo quebrado | | Harness completo (Opus 4.5) | $200 | 6 horas | Software funcional, UI refinada, física correta |
22 vezes mais caro — para um produto realmente funcional, não só uma demo de tela.
Vale a pena? Depende do quanto uma versão ruim do release custa para sua equipe.
Mas aqui é a parte que ninguém fala
O harness + modelo é uma evolução contínua.
Um harness de $200, após atualizar o modelo, fica $124.
| Linha de tendência |
| --- |
| Modelos melhores = harness mais simples = execução mais barata = resultados mais rápidos |
Resumo completo
O que é harness
5 produtos de harness
3 escolas
5 princípios universais
Contradições intrigantes
Os engenheiros vencedores de 2026 não escrevem o melhor código.
Eles projetam as melhores "restrições" — e estão prontos para descartá-las assim que deixam de ser lucrativas.