Harness rompe barreiras: Para além do modelo, o terreno de implementação torna-se o "primeiro padrão" na escolha de IA empresarial

Artigo | Doudou, o “empresário da indústria”

Editor | Pai Ye

Pelos dados da tendência atual, a Harness parece mais uma “camada intermédia irreversível”.

Tal como um sistema operativo para o hardware, e uma base de dados para as aplicações, a Harness está a tornar-se na camada “de interface” entre a IA e o mundo real. Quando a IA passa de “saber falar” para “saber fazer trabalho”, a Harness é essa correia/cabo que determina até onde ela consegue ir.

Em 2026, o mercado global de IA empresarial já entrou silenciosamente numa “zona de águas profundas”.

Nos últimos três anos, as capacidades dos grandes modelos evoluíram a uma velocidade quase descontrolada: de assistentes de conversação para geração de código, de criação de conteúdos para raciocínio complexo. O “teto de inteligência” do próprio modelo tem sido constantemente atualizado. Hoje, os grandes modelos generalistas já se tornaram uma infraestrutura tão básica quanto a eletricidade e a água da torneira.

No entanto, isto não aliviou as empresas. Está a emergir uma realidade que contrasta fortemente com o progresso tecnológico: quanto mais forte é a IA, mais difícil (e mais arriscado) se torna para as empresas utilizarem-na bem. Um relatório da Deloitte, “State of Enterprise AI in 2026”, mostra que, embora 80% das empresas inquiridas afirmem já ter implementado ferramentas de IA, apenas 15% conseguem efetivamente aplicações à escala e geram valor comercial significativo.

Enquanto a indústria cai em confusão, a direção do vento muda.

Durante janeiro de 2026, uma equipa de engenharia interna da OpenAl, inicialmente com apenas 3 pessoas, começou com um repositório Git vazio e, em 5 meses, construiu um produto Beta completo com mais de 1 milhão de linhas de código. Ao longo de todo o processo, nenhuma linha de código foi digitada manualmente por humanos. É ainda de notar que, mais tarde, esta equipa foi alargada para 7 pessoas; nesse período, fundiu cerca de 1500 pedidos de pull, e, em média, cada engenheiro conseguiu avançar 3,5 PR por dia. Com a maturidade do processo, a eficiência de produção continuou a aumentar. A OpenAI estima que esta abordagem poupa cerca de 10 vezes o tempo em comparação com o desenvolvimento tradicional de código escrito à mão.

Isto não é apenas um aumento de eficiência; é uma subversão da própria definição de “engenharia de software”. A OpenAI deu a este novo método o nome de: “Harness Engineering” (“engenharia de condução/controlo do engenho”).

Esta mudança gerou rapidamente ressonância nos círculos tecnológicos de topo. Da LangChain à OpenAI e, depois, à Anthropic, um grupo de atores tecnológicos centrais reposicionou, quase em uníssono, o foco de “capacidade do modelo” para “engenharia de sistema”, convergindo gradualmente para uma nova fórmula de consenso: Agent = Model + Harness.

Neste contexto, surgem também algumas perguntas: será que, quando todos os principais fabricantes começam a apostar na Harness, ela é apenas uma “solução de transição” antes de os grandes modelos atingirem maturidade, ou estará já a tornar-se o primeiro passo na implementação da IA nas empresas?

  1. Não inteligente, não controlável: a indústria começa a procurar “rédeas” para o Agent

Por que razão todas as principais empresas estão a apostar na Harness?

Primeiro, vejamos um conjunto de dados de investigação da Gartner: mostra que, nos projetos globais de IA empresarial, apenas menos de 15% conseguem realmente materializar aplicações de negócio à escala; e que a “instabilidade de agentes em tarefas complexas” foi apontada por 78% dos responsáveis por IA como o principal obstáculo à implementação.

Este impasse na implementação foi repetidamente confirmado nos feedback técnicos das principais empresas.

A Microsoft foi direta ao apontar que, atualmente, o desenvolvimento de Agent carece de mecanismos eficazes de trace (rastreio); quando uma tarefa falha, os programadores ficam quase apenas com a opção de “adivinhar” para fazer debug.

A Anthropic, por sua vez, revelou dois défices profundos na sua documentação técnica: primeiro, a ansiedade de contexto — ao lidar com tarefas longas, o modelo vai perdendo coerência progressivamente, chegando mesmo a manifestar um sentimento de “cansaço” em que acaba por fechar de forma apressada por se aproximar do limite de contexto; segundo, otimismo cego — o modelo não é nada bom a fazer autoverificação de qualidade e os resultados que produz tendem a demonstrar confiança excessiva.

Entretanto, a OpenAI também lançou um alerta: com a colaboração entre múltiplos agentes e a chamada de ferramentas a tornarem-se cada vez mais frequentes, riscos de segurança como PromptInjection (injeção de prompts) e a fuga de dados privados estão a ser amplificados ao limite.

Com estas questões somadas, do lado das empresas surgem quatro consequências diretas: efeitos instáveis, riscos incontroláveis, incapacidade de responsabilizar problemas e ROI que não pode ser comprovado. E, no fundo, o problema não é que “o modelo não seja inteligente o suficiente”; é que as empresas não dispõem de um “sistema operativo” que permita que a IA funcione de forma contínua, fiável e à escala.

Olhemos para os últimos três anos: a forma da IA já mudou essencialmente. A IA de 2022 a 2024 parecia mais um robô avançado de perguntas e respostas. Já em 2026, pela primeira vez, a IA passa a ter capacidade real de trabalhar continuamente: consegue decompor tarefas, chamar ferramentas, executar fluxos entre sistemas e, em certa medida, decidir de forma autónoma.

Trata-se de uma mudança qualitativa. Mas é precisamente neste momento que os problemas se tornam ainda mais totalmente expostos. A IA deixa de ser “um hamster enjaulado” e passa a ser uma égua feroz que consegue correr sozinha. Outros montam nela e conseguem correr por toda a parte; mas quando as empresas montam, muitas vezes acabam por “partir a perna” diretamente.

Assim, a indústria começa a reconhecer uma realidade cruel: o limite da IA já não é determinado pelo modelo, mas sim por saber se “consegue domá-la”.

Em fevereiro de 2026 surgiu um ponto de viragem. Num experimento da equipa LangChain, foi descoberto que investigadores, usando o mesmo modelo (GPT-5.2-Codex), sem alterar parâmetros, apenas otimizando a Harness, fizeram a pontuação desse modelo no teste Terminal Bench2.0 disparar de 52,8 para 66,5, passando do Top30 diretamente para o Top5.

Constata-se que o modelo não mudou, mas a capacidade deu um salto.

Isto tornou-se um sinal forte: o que a indústria realmente precisa nunca foi “uma IA mais inteligente”, mas sim um sistema de engenharia que consiga domar a IA, permitindo-lhe aterrar de forma estável. Foi precisamente neste contexto que a Harness Engineering (“engenharia de condução/controlo”) foi formalmente apresentada, tornando-se uma “rédea” que permite que a IA funcione continuamente, de forma fiável e à escala — uma nova esperança para viabilizar a implementação da IA.

  1. Harness: um sistema de base para a IA empresarial aterrar de forma estável

Se a essência de a IA ser difícil de implementar é a IA perder o controlo, então o que a Harness realmente quer fazer é transformar um sistema probabilístico num sistema de engenharia.

Pelos princípios de base, um grande modelo é, na essência, um “gerador de distribuição probabilística”, e não um sistema determinístico. Um estudo de 2026 aponta que, mesmo em agentes que se saem muito bem em benchmarks de alta pontuação, ao executar repetidamente várias vezes, a taxa de sucesso cai de 60% para 25%; a estabilidade fica muito abaixo do que sistemas a nível empresarial exigem. Isto significa que a “correção média” do modelo, em cenários empresariais, equivale a “inutilizável”.

Daqui surge a primeira questão central: as empresas não conseguem determinar por que razão a IA erra.

Os Agents tradicionais funcionam como uma caixa-preta: quando ocorre um erro, não se sabe se a falha se deve a um erro de raciocínio do modelo, a uma anomalia na chamada de ferramentas ou a um timeout num sistema externo. No ecossistema empresarial, a “não explicabilidade” por si só é inaceitável. E é precisamente por falta de observabilidade que muitos projetos de IA ficam presos na fase de debug e não conseguem avançar; em geral, a “ausência de rastreabilidade” é vista como um obstáculo central para não entrar em ambientes de produção. Assim, o primeiro passo da Harness não é otimizar o modelo, mas sim tornar o processo visível.

Ela consegue registar cada passo do agente, o trajeto do raciocínio, os parâmetros de chamada de ferramentas e o contexto; e, quando deteta “ciclos lógicos” ou “caminhos anómalos”, aciona rollback ou tomada de controlo manual, transformando o comportamento de caixa-preta num sistema que pode ser depurado.

Mas o problema não se limita a “não ser visível”. Mais grave ainda é que, mesmo quando se vê, vai ficando cada vez mais confuso. Em tarefas longas, o modelo gera “ansiedade de contexto”; quanto mais longa a tarefa, menos estável é o sistema, e o modelo tende a produzir instruções ilegais ou a provocar fugas de dados.

Ou seja, a perda de controlo não é um caso isolado; ela é amplificada exponencialmente com a complexidade. Portanto, a segunda função da Harness é limitar a “carga cognitiva” do modelo. Ela não coloca todos os dados de uma vez no modelo; em vez disso, com base nos nós da tarefa, fornece de forma precisa apenas o “conhecimento necessário”, mantendo o modelo desperto/clarificado.

No entanto, mesmo controlando o comprimento do processo, existe ainda um problema mais oculto: o modelo não sabe quando está a errar.

Na realidade, muitos projetos de IA empresarial não avançam para produção porque a autoavaliação do modelo costuma ser “otimista de forma cega”, e as empresas não se atrevem a enviar diretamente ao cliente os resultados gerados pela IA.

Assim, a terceira camada de capacidade da Harness é chamar outro modelo, especializado em “auditoria”, para corrigir a saída do agente principal. Em vez de “sistema de autoavaliação”, passa-se para um “sistema de avaliação externa”, estabelecendo a credibilidade dos resultados.

Mas mesmo aqui, o problema não termina.

Tenha-se em conta que, quando a IA entra de facto no ambiente empresarial, ela já não enfrenta uma única tarefa; confronta-se com um sistema complexo, como ERP, CRM, armazéns de dados, plataformas low-code, gateways de API, entre outros.

E para a IA acionar ERP, CRM, plataformas low-code e dezenas/centenas de interfaces, uma abordagem apenas com Function Call tem grande probabilidade de falhar. Os dados indicam que mais de 60% das falhas de IA vêm de controlo descontrolado do âmbito da tarefa e de problemas de dados; na essência, trata-se de “complexidade do sistema que excede a capacidade de suporte”. Isto significa que todos os problemas anteriores — caixa-preta, perda de controlo e alucinações — serão amplificados ainda mais nesta camada de “integração de sistemas”.

Por isso, a última camada de ação da Harness é funcionar como um adaptador universal, convertendo interfaces de dados internas das empresas, antigas e não padronizadas, em protocolos normalizados legíveis para a IA, permitindo que as empresas gerirem de forma unificada os caminhos de chamada, as permissões e o estado.

Em resumo, a Harness não resolve apenas a questão de se a IA “consegue” fazer algo; ela torna possível conceber a IA, controlá-la, avaliá-la e colocá-la em fluxos reais de negócio. Ao encapsular capacidades de IA que antes dependiam de saídas probabilísticas dentro de processos industriais padronizados, previsíveis e auditáveis, a IA passa a assentar de forma real nos negócios empresariais.

  1. A era pós-Agent: implementar IA já não é apenas uma questão técnica

A Harness vai mesmo tornar-se um novo núcleo para saber se um Agent consegue ser implementado?

Na verdade, na indústria há muito debate sobre esta afirmação.

A perspetiva dos grandes modelos, representada por OpenAI e Anthropic, defende que, à medida que as capacidades de inferência do modelo e as capacidades de longos contextos continuam a melhorar, os Agents no futuro vão tornar-se cada vez mais “autocoerentes”, e a Harness será apenas um “andaime” temporário.

Dito de outra forma, os defensores dos grandes modelos consideram que, desde que o “cavalo” seja forte o suficiente, ele próprio puxa os carrinhos e entrega a carga. Agora, ainda é necessário usar arreios e complexas armações de madeira porque o cavalo ainda não é inteligente o bastante. Mais tarde, quando o cavalo evoluir para “um cavalo que faz tudo” (algo como “cavalo extraordinariamente capaz”), essas estruturas e cordas complexas serão um fardo; só atrapalham a capacidade do cavalo de se movimentar.

Mas existe uma outra perspetiva, mais do lado da engenharia e da implementação.

O fundador da LangChain, Harrison Chase, enfatizou publicamente que melhorias de desempenho vêm muitas vezes de “otimizações do sistema externo, e não de atualização do modelo”; e Satya Nadella, da Microsoft, já mencionou várias vezes que para a IA entrar nos sistemas centrais das empresas precisa de “observabilidade, controlabilidade e limites de segurança”.

A avaliação por trás disso é que, por mais forte que o modelo seja, ele é apenas uma “unidade de capacidade”, e não um “sistema de produção”. Mesmo que o cavalo seja forte, ele continua a ser força animal: sem carroçaria e sem rodas, não há onde colocar a carga. Sem rédeas, o cavalo corre descontrolado. Dentro das empresas, a “carga” é “dados de negócio” e o destino é “cumprir tarefas”. Sem esta estrutura de engenharia precisa, a IA jamais consegue ser implementada com segurança e exatidão.

Em outras palavras: o modelo determina “o que é possível fazer”, mas a Harness determina “se dá para fazer de forma estável”.

Visto por este ângulo, a divergência entre as duas perspetivas, na verdade, corresponde a dois problemas diferentes: um a responder “onde está o limite da IA” e o outro a responder “se a IA pode ou não ser usada”.

Mas, por agora, ninguém está a discutir quem vai substituir quem; está-se antes a montar “golpes combinados”.

Por um lado, os fabricantes de modelos estão a estender-se ativamente para a camada da Harness. A OpenAI lançou Agents SDK e Codex, incorporando as capacidades do modelo diretamente no ambiente de execução; a Anthropic lançou MCP e Agent Skills, transformando a gestão de contexto e capacidades de fluxo em produtos. Isto indica uma tendência: mesmo os defensores mais firmes da perspetiva dos modelos começam a preencher capacidades de camada de sistema, porque só com o modelo já não se consegue sustentar a execução de tarefas complexas.

Por outro lado, os frameworks de engenharia continuam a “consumir o benefício” dos modelos. Afinal, frameworks como LangChain, AutoGen e CrewAI dependem, na essência, de modelos mais fortes para aumentar o teto de capacidade.

Assim, vai-se formando um cenário de fusão e interseção. Os fabricantes de modelos começam a fazer sistemas; os fabricantes de sistemas dependem de modelos; e ambos se infiltram nos limites de capacidade do outro.

Esta fusão também dá origem a formas de indústria ainda mais segmentadas. Há empresas focadas na “camada de tradução”, que converte dados complexos e não estruturados internos das empresas (PDF, Excel, bases de dados) em contextos compreensíveis para modelos; há empresas a fazer “Harness por indústria”, como em cenários jurídicos e financeiros, em que os fluxos de tarefas são consolidados em templates: o utilizador só introduz materiais e o sistema executa automaticamente a análise; e existe ainda outra categoria que faz colaboração entre múltiplos modelos, em que a Harness atua como “comandante”, despachando modelos diferentes conforme o tipo de tarefa — por exemplo, deixar o GPT gerar conteúdo, deixar o Claude lidar com código e deixar modelos locais processar dados sensíveis.

A característica comum destas formas é que já não tratam o modelo como “produto”, mas sim como “componente”. Contudo, se olharmos mais a fundo, esta disputa também tem uma clara “cor de posição”. As empresas de modelos enfatizam a importância do modelo, porque esse é o seu ativo central;

As empresas de frameworks enfatizam a Harness, porque é aí que está o seu valor; e do lado das empresas, o foco está em “dados e fluxos”, porque é isso que, no fim, determina o ROI.

Ou seja, não é apenas uma disputa de caminho técnico; é também uma projeção de interesses comerciais. Em certa medida, cada parte está a reforçar a camada que lhe é mais favorável.

Portanto, voltando à pergunta original: a Harness é uma solução de transição, ou é um novo núcleo?

Pelos dados da tendência atual, parece mais uma “camada intermédia irreversível”. Tal como um sistema operativo é para o hardware e uma base de dados é para as aplicações, a Harness está a tornar-se aquela camada “de interface” entre a IA e o mundo real. Quando a IA passa de “saber falar” para “conseguir fazer trabalho”, a Harness é a correia que determina até onde ela pode ir.

Grande quantidade de notícias e análises precisas — tudo na app Sina Finance

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar