Interpretação do novo trabalho da Anthropic: Como construir uma equipa eficiente de colaboração entre IA e humanos.

Em 24 de junho, o blog oficial da Anthropic publicou um novo artigo, "Building effective human-agent teams", da autora Kristen Swanson.

O ponto central do artigo é discutir o paradigma da colaboração a nível de equipa com IA, que está a mudar de "uma pessoa com uma caixa de chat (mesmo que com muitos agentes por trás)" para "um grupo de pessoas e um grupo de agentes a partilhar o mesmo espaço de trabalho".

Este artigo irá recontar as ideias centrais do texto original, combinando experiência prática na implementação de agentes de IA, oferecendo uma análise contextual e reflexões abrangentes.

I. Tema Principal: As equipas de colaboração com IA estão a tornar-se "modo multijogador"

No passado, usar a IA era uma experiência "single-player" — uma pessoa a colaborar com um agente para concluir tarefas individuais.

Agora, o novo modelo é que humanos e agentes podem colaborar no mesmo espaço de trabalho, servindo um objetivo partilhado pela equipa.

O trabalho começa a assemelhar-se mais a um "jogo multijogador": a equipa humana define a estratégia, e o Claude executa.

Em suma, é partilhar objetivos, partilhar contexto e, especialmente, partilhar o espaço de trabalho.

Como mostra a imagem abaixo, está a ocorrer uma transição para o modelo de trabalho mais complexo à direita:

O que permite esta transição é o novo produto da Anthropic, o Claude Tag, uma forma de o Claude integrar ferramentas de colaboração em equipa como o Slack, sendo mencionado e atribuído como um membro da equipa.

Portanto, este artigo não é pura teoria; é a direção que os próprios produtos da Anthropic estão a impulsionar.

II. O que é o problema de colaboração "multiplayer agent"?

O artigo original define "multiplayer agents" como: modelos de IA que colaboram simultaneamente com muitos humanos diferentes.

Partilham semelhanças com os agentes comuns que conhecemos, mas também têm diferenças fundamentais:

  • Semelhanças: Têm a sua própria memória e competências (skills).

  • Diferenças: Têm as suas próprias credenciais (credentials),

e "living where work happens" — vivem onde o trabalho realmente acontece.

Na Anthropic, esse lugar são ferramentas de colaboração em equipa como o Slack.

Esta configuração de "ter as suas próprias credenciais, viver nos canais da equipa" é muito importante.

Significa que o agente já não está a usar a conta de alguém, a trabalhar numa sessão privada de alguém, mas sim uma entidade de equipa com identidade independente: é visível para toda a equipa, os seus resultados são visíveis para todos, e o contexto que lê é a nível de equipa, não a nível individual. Como mostra a imagem abaixo, torna-se um membro do seu software de escritório.

Para que o agente possa "participar eficientemente" nos canais da equipa, é necessário um conjunto específico de capacidades subjacentes (como o produto Claude Tag) + memória persistente especialmente concebida, identidade exclusiva, fontes de informação, etc.

Além disso, só a capacidade técnica não basta; para que a equipa humano-máquina seja "bem-sucedida", é necessário um conjunto de métodos de trabalho e normas partilhadas.

Assim, as quatro experiências seguintes do artigo são todas sobre o design de "normas" para equipas de IA.

III. Quatro experiências de equipas de agentes de IA

Experiência 1: Reformar a gestão da informação, dar ao agente o contexto mais amplo possível

A Anthropic defende que não se deve decidir documento a documento, canal a canal, que informação é visível para o agente, mas sim usar limites de segurança (security boundaries) claramente definidos, aplicados de forma uniforme a todo o espaço de trabalho do Slack, transcrições de reuniões, bibliotecas de documentos.

O artigo menciona explicitamente a agonia quotidiana: "Este canal deve ser público ou privado? Este documento pode ser partilhado com aquela pessoa? Este agente pode ver aquela mensagem?"

Dentro dos limites, o contexto deve ser visível para todos os membros da equipa — sejam humanos ou IA, podendo mesmo a IA, tal como um humano, solicitar permissões para documentos.

A beleza desta abordagem é que resolve dois problemas simultaneamente:

  1. Amplia o contexto disponível para o agente e para os humanos;

  2. Elimina a fadiga de decisão de "partilhar item por item".

A recompensa da abertura de permissões é tangível: não há perda de transmissão de informação e, como os agentes leem texto muito mais rápido do que os humanos, conseguem "routinely surface relevant work that humans would otherwise have missed" (frequentemente trazer à tona trabalho relevante que os humanos teriam perdido).

Na minha opinião, isto é essencialmente uma mudança na cultura organizacional e no mecanismo de permissões.

"Público por defeito internamente" é uma mudança cultural que muitas empresas consideram dolorosa.

Como a Anthropic sempre foi uma empresa altamente confiante e com informação plana, pode não compreender a doença das grandes empresas, especialmente a diferença de informação entre níveis hierárquicos que cria diferenças de recursos em setores tradicionais.

Além disso, para organizações com fortes requisitos de conformidade e isolamento de informação (finanças, saúde, jurisdições múltiplas), a "aplicação uniforme a nível de espaço de trabalho" pode não ser viável.

Por isso, o que é realmente aplicável é o mecanismo de aprovação simplificado subjacente: desde que o agente esteja num grupo, pode ler naturalmente os documentos com permissão desse grupo; mesmo com controlo de permissões, pode ser gerido em lote, em vez de primeiro dar o documento e depois verificar a qualidade.

Experiência 2: Cada pessoa/agente tem funções e ferramentas claras

A imagem no artigo é muito vívida: a equipa humano-máquina partilha um registo de membros, um conjunto de artefactos e um espaço de trabalho.

Acima disso, os agentes têm divisão de trabalho:

  • Um agente possui a análise de dados de um projeto;

  • Outro detém e executa as especificações de design;

  • Um terceiro é responsável pela síntese de pesquisa (research synthesis).

No início do projeto, os humanos conversam primeiro com os agentes para decidir como atribuir funções e como humanos e agentes colaborarão.

Depois, produzem a combinação de funções, regras e momentos de intervenção, como na imagem abaixo.

Depois de as funções estarem claras, um agente pode até "spin up" (iniciar) outros agentes, garantindo que cada tarefa específica é atribuída ao agente com a memória e permissões de acesso corretas.

O importante é ter as ferramentas adequadas: o agente de análise de dados pode precisar de acesso ao BigQuery; o agente de QA pode precisar do Playwright MCP.

Os humanos mantêm funções que só os humanos podem desempenhar, garantindo que o julgamento humano é usado nas decisões mais importantes.

Na minha opinião: Esta é também a arquitetura do mecanismo de trabalho de investigação anterior da Anthropic.

Usar um lead agent para coordenar globalmente, delegando tarefas a subagentes especializados que correm em paralelo. Este mecanismo é muito prático, com indicadores de qualidade quase duplicados (90,2% superiores), embora com um custo de tokens 15 vezes superior. No entanto, "mais agentes é mais forte" não é uma conclusão universal, mas sim "uma melhoria em certos tipos de tarefas, à custa de um poder computacional considerável".

Especialmente em trabalhos amplos e paralelizáveis, e devido a um mecanismo de validação cruzada mais forte, a precisão da informação é melhor.

Além disso, é necessário um design cuidado, com decomposição de tarefas e isolamento de funções, em vez de simplesmente "empilhar mais agentes".

Caso contrário, será mais um mal-entendido de "produção de 18000 jin por mu".

Muitas destas ideias também estão no artigo anterior sobre como usar Dynamic Workflows do Claude para investigação aprofundada.

Experiência 3: Definir um papel de estrela polar, deixar o agente resolver problemas proativamente

O artigo distingue dois tipos de agentes: uns que apenas "cumprem tarefas atribuídas", e os mais importantes, que propõem novos projetos e fluxos de trabalho proativamente.

Estes últimos surgem geralmente numa equipa que já possui um contexto rico e funções claras, juntamente com uma orientação adicional — a estrela polar (north star).

A estrela polar ajuda a equipa a decidir "que tarefas e fluxos de trabalho são os corretos".

O artigo enfatiza várias regras:

A estrela polar é sempre definida por humanos, enraizada na missão e nos objetivos de negócio da empresa;

• Uma vez claramente escrita, o humano partilha-a com os agentes da equipa;

• Depois — este passo é crucial — os humanos escolhem quais os agentes que devem propor proativamente novos fluxos de trabalho.

Supondo um produto e uma empresa orientados por operações, então a função operacional deve ser o agente principal, em vez de ser orientado pelo produto, tecnologia ou finanças.

Tal como no modo de roteamento (Classify-And-Act) do uso de Dynamic Workflows do Claude para investigação aprofundada, um agente classifica o tipo de tarefa e depois distribui-a ao agente especializado mais adequado.

Na minha opinião, já vi vários artigos da Anthropic que refletem a sua visão sobre o que é um agente e o que é um fluxo de trabalho.

O primeiro "dinamiza os seus próprios processos e uso de ferramentas, controlando como completar as tarefas".

O segundo é um sistema determinístico "orquestrado por caminhos de código predefinidos".

Portanto, para construir uma equipa de IA, deve-se dar ao agente uma estrela polar em vez de uma lista de tarefas, conscientemente a empurrar o sistema de fluxo de trabalho para agente.

Uma equipa com um objetivo trará alguma criatividade, em vez de procurar problemas dentro de um âmbito limitado.

Claro, muitas das equipas de IA que construímos agora são fluxos de trabalho programáticos ou com IA, o que já resolve muitos problemas. Se no futuro precisarmos de criatividade, iniciativa e capacidade de resolver problemas proativamente, então teremos de projetar equipas deste tipo de agente.

Experiência 4: Deixar o agente crescer ao longo do tempo

Aqui, os dados oficiais surpreenderam-me: ele diz que os engenheiros da Anthropic já conseguiram que agentes na equipa processassem independentemente 500 correções de bugs — mas rapidamente enfatiza: "things certainly didn't start off that way (não começou assim, de todo)."

Compara o agente a um colega humano recém-contratado: precisa de várias rondas de feedback para exteriorizar o conhecimento tácito de "como fazer melhor a tarefa".

O utilizador tem de testar repetidamente o agente com várias tarefas para perceber os limites das suas capacidades, como descrever claramente os objetivos, que ficheiros de competências (skill) precisa, que prompt extrai melhor o comportamento desejado.

O artigo também alerta para um ponto fácil de ignorar: os modelos são atualizados, as tarefas devem ser retestadas — o prompt pode precisar de ser reescrito, e as barreiras (Harness) que funcionavam no passado podem até restringir um modelo mais inteligente de encontrar soluções mais criativas.

O que há de mais valioso nesta experiência é a discussão sobre verificação (verification):

Descobrimos que os melhores agentes de longo ciclo têm muitas formas de verificar o seu trabalho antes de o mostrarem a humanos.

  • O código tem testes, claro;

  • Mas a maioria dos outros trabalhos também pode ser verificada: documentação técnica pode ser avaliada com rubricas (rubric) e guias de estilo (style guide);

  • Quando os humanos definem os padrões e garantem que todo o trabalho entregue ao agente é auditável, a qualidade mantém-se e não se desvia do objetivo;

  • Além disso, pode-se deixar um agente trabalhar e outro agente verificar — é o chamado "Doer-Verifier" (executor-verificador) agent harness.

O artigo tem um caso completo: um responsável de engenharia assume uma nova equipa com muito backlog. Reúne algumas pessoas + alguns agentes para priorizar juntos.

Um grupo de agentes lê todos os itens do backlog, verifica se alguém os está a tratar, atribui pontuações de complexidade aos itens sem dono;

Outro grupo filtra itens de complexidade baixa a média e produz diretamente alterações de código.

Inicialmente, os humanos revêem cada decisão do agente, e marcam as que precisam de intervenção humana; depois, os humanos "ensinam" o agente a passar diretamente essas decisões para humanos, garantindo que decisões com compromissos difíceis têm sempre "human in the loop".

E, semanalmente, a equipa faz o agente compilar um relatório semanal com "lições e erros (lessons & missteps)", para que o agente se lembre dos erros e evite repeti-los. Com o tempo, o responsável pode atribuir ao agente alterações cada vez mais complexas, gastando cada vez menos tempo em orientação diária, como mostra a imagem:

Parece o processo de criar lagostas inteligentes.

O último parágrafo é a perceção que mais aprecio no artigo — quando o agente se torna mais independente, o responsável começa a ensinar o agente a tratar "a atenção humana" como um recurso escasso:

Por exemplo, agrupar problemas para que o humano responda de uma só vez, repetir o contexto chave para que o humano entre rapidamente no estado, limitar o número de itens entregues de uma só vez.

Alguns até criam um agente especializado cuja única função é decidir como agrupar e apenas escalar as comunicações mais importantes para humanos.

Outros colocam barreiras nos agentes como "fazer no máximo X trabalho por dia" — para que o humano consiga participar de forma significativa e não perder competências importantes.

Na minha opinião, estas experiências são as mais profundas do artigo sobre a "relação humano-máquina".

  • Primeiro, o pensamento da Anthropic: supervisão eficaz não é aprovar cada ação, mas "estar numa posição para intervir quando importa" (being in a position to intervene when it matters).

  • Segundo, tratar explicitamente a "atenção humana" como um recurso escasso a otimizar é um princípio de design subestimado. A maioria das discussões sobre agentes otimiza a "capacidade do agente", mas o verdadeiro gargalo já é a "largura de banda cognitiva humana".

  • Terceiro, a engenharia de Harness deve, nas equipas humano-máquina, simular totalmente equipas eficientes, afinal, alguns bons cavalos realmente não precisam de rédeas, apenas de objetivos.

IV. A era da colaboração humano-máquina ampliará impiedosamente a qualidade organizacional da equipa original

A frase mais honesta e mais fácil de ignorar deste artigo aparece no final:

Ele diz que estas 4 experiências não são novas; já existiam antes da IA. Boas equipas precisam de uma estrela polar forte, funções claras, documentação sólida, padrões de qualidade partilhados, e espaço para aprender com erros — são hábitos de equipa saudáveis que conhecemos há décadas.

E a equipa de agentes de IA apenas torna estas bases ainda mais importantes.

Sem uma construção de mecanismos razoável, a IA não tornará a equipa mais forte automaticamente; pode até causar compressão, levando ao caos, por exemplo:

  • Equipas com contexto disperso (como as que gerem com base em assimetria de informação), ao integrar agentes, tornar-se-ão ainda mais dispersas (quanto maior o isolamento de informação, maior o desvio na produção);

  • Equipas com funções confusas, os agentes apenas replicarão a confusão, com responsabilidades de trabalho desordenadas e fontes de decisão distorcidas.

  • Equipas sem cultura de verificação, os erros dos agentes escalarão a uma velocidade maior, a velocidade do código de IA já ultrapassa a velocidade de CR humana.

Portanto, na minha opinião, "as equipas que mais beneficiam desta vaga de agentes são também aquelas que conscientemente praticam estas bases."

Para as organizações que estão a apostar em agentes de IA, a verdadeira lição deste artigo pode não estar em "como usar o Claude", mas sim em voltar a fazer a sério estas quatro coisas antigas: contexto, funções, objetivos e padrões de qualidade da sua própria equipa.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado