Interpretación de la nueva obra de Anthropic: Cómo construir equipos eficientes de colaboración entre humanos e IA.

El 24 de junio, el blog oficial de Anthropic publicó un nuevo artículo titulado "Building effective human-agent teams", escrito por Kristen Swanson.

El punto central del artículo es discutir el cambio de paradigma en la colaboración a nivel de equipos de IA, pasando de "una persona frente a un cuadro de chat (incluso si detrás hay muchos agentes)" a "un grupo de personas y un grupo de agentes compartiendo el mismo espacio de trabajo".

Este artículo, basado en la transmisión de los puntos centrales del texto original, combinado con la experiencia práctica en la implementación de agentes de IA, ofrecerá un análisis estructurado y una reflexión integral.

I. Tema principal: Los equipos de colaboración en IA se están convirtiendo en "modo multijugador"

En el pasado, usar IA era una experiencia de "un jugador (single-player)": una persona colaboraba con un agente para completar tareas individuales.

Ahora, el nuevo modelo es que humanos y agentes pueden colaborar en el mismo espacio de trabajo, sirviendo a un objetivo compartido del equipo.

El trabajo comienza a parecerse más a un "juego multijugador (multiplayer game)": el equipo humano define la estrategia y Claude se encarga de la ejecución.

En resumen, se trata de compartir objetivos, compartir contexto y, especialmente, compartir el espacio de trabajo.

Como muestra la siguiente imagen, se está produciendo una transición hacia el modelo de trabajo más complejo de la derecha:

Y lo que hace posible esta transición es el nuevo producto de Anthropic, Claude Tag, una forma que permite que Claude se integre en herramientas de colaboración en equipo como Slack, siendo mencionado con @ y asignado como un miembro más del equipo.

Por lo tanto, este artículo no es pura teoría, sino la dirección hacia la que se dirige el propio producto de Anthropic.

II. ¿Qué es el problema de colaboración "multi-agente"?

El artículo define "multiplayer agents" como: modelos de IA que colaboran simultáneamente con muchos humanos diferentes.

Comparte similitudes con los agentes comunes que conocemos, pero también diferencias clave:

  • Similitud: Tiene su propia memoria y habilidades (skills).

  • Diferencia: Tiene sus propias credenciales (credentials),

y "living where work happens" — vive donde realmente ocurre el trabajo.

En Anthropic, ese lugar son herramientas de colaboración en equipo como Slack.

Esta configuración de "tener sus propias credenciales y vivir en los canales del equipo" es muy importante.

Significa que el agente ya no utiliza la cuenta de una persona ni trabaja en una conversación privada de alguien, sino que es una entidad de equipo con identidad independiente: es visible para todo el equipo, sus resultados son accesibles para todos, y el contexto que lee es a nivel de equipo, no personal. Como se muestra a continuación, se convierte en un miembro más de tu software de oficina.

Para que un agente pueda "participar eficazmente" en los canales del equipo, se necesita un conjunto específico de capacidades subyacentes (como el formato de producto Claude Tag) + memoria persistente diseñada especialmente, identidad exclusiva, fuentes de información, etc.

Además, no basta con tener capacidades técnicas; para que un equipo humano-máquina tenga "éxito" se necesita un conjunto de métodos de trabajo y normas compartidas.

Por eso, las cuatro experiencias que siguen en el artículo tratan todas sobre el diseño de "normas" para equipos de IA.

III. Cuatro experiencias sobre equipos de agentes de IA

Experiencia 1: Reformar la gestión de la información, dar al agente el contexto más amplio posible

Anthropic cree que no se debe decidir documento por documento o canal por canal qué información es visible para el agente, sino que se deben usar límites de seguridad (security boundaries) claramente definidos, que se apliquen de manera uniforme a todo el espacio de trabajo de Slack, transcripciones de reuniones, repositorios de documentos.

El artículo menciona específicamente ese dolor cotidiano: "¿Este canal debería ser público o privado? ¿Se puede compartir este documento con esa persona? ¿Puede este agente ver ese mensaje?"

Dentro de los límites, el contexto debe ser visible para cada miembro del equipo, ya sea humano o IA, e incluso la IA puede solicitar permisos de documentos como lo haría un humano.

La sutileza de esta estrategia radica en que resuelve dos problemas a la vez:

  1. Amplía el contexto al que pueden acceder tanto el agente como el humano;

  2. Elimina la fatiga de decisión que implica "compartir elemento por elemento".

La recompensa de la apertura de permisos es real: ya no hay pérdidas en la transmisión de información, y como el agente lee texto mucho más rápido que los humanos, puede "routinely surface relevant work that humans would otherwise have missed" (a menudo sacar a la luz trabajo relevante que los humanos habrían pasado por alto).

En mi opinión, esto es esencialmente un cambio en la cultura organizacional y el mecanismo de permisos.

Para muchas empresas, el "predeterminado interno abierto" es un cambio cultural profundo que requiere tocar la estructura.

Como Anthropic es una empresa que desde el principio se caracteriza por alta confianza e información plana, no puede comprender esa enfermedad de las grandes empresas, especialmente la diferencia de información entre niveles en industrias tradicionales, que genera diferencias de recursos.

Además, para organizaciones con fuertes requisitos de cumplimiento y aislamiento de información (finanzas, salud, entre jurisdicciones), el "corte único a nivel de espacio de trabajo" puede no ser viable.

Lo realmente aplicable es el mecanismo de aprobación simplificado subyacente: por ejemplo, si un agente está en un grupo, puede leer de forma natural los documentos a los que ese grupo tiene permiso. Incluso si hay control de permisos, se puede gestionar de forma masiva, en lugar de primero asignar documentos y luego organizar la calidad.

Experiencia 2: Cada persona/agente tiene roles y herramientas claros

La imagen del artículo es muy vívida: el equipo humano-máquina comparte una lista de miembros, un conjunto de productos y un espacio de trabajo.

Sobre esto, los agentes tienen diferentes roles:

  • Un agente tiene el análisis de datos de un proyecto;

  • Otro posee y ejecuta las normas de diseño;

  • Un tercero es responsable de la síntesis de investigación (research synthesis).

Al iniciar un proyecto, los humanos primero hablan con el agente para decidir cómo asignar roles y cómo colaborarán humanos y agentes.

Luego se produce la combinación de roles, reglas y momentos de intervención como se muestra a continuación.

Una vez que los roles están claros, un agente puede incluso "spin up" (levantar) a otros agentes, asegurándose de que cada tarea específica se asigne al agente que tiene la memoria correcta y los permisos de acceso correctos.

La clave es proporcionar las herramientas adecuadas: el agente de análisis de datos puede necesitar acceso a BigQuery, el agente de QA puede necesitar Playwright MCP.

Los humanos mantienen los roles que solo los humanos pueden tener, asegurando que el juicio humano se utilice en las decisiones más importantes.

En mi opinión: esto también es la arquitectura del mecanismo de trabajo de investigaciones anteriores de Anthropic.

Usar un lead agent para coordinar el conjunto, delegando tareas a subagentes especializados que se ejecutan en paralelo. Este tipo de mecanismo es realmente práctico y los indicadores de calidad casi se duplican (un 90,2% más alto), aunque el costo aumente 15 veces en tokens. Sin embargo, "más agentes son más fuertes" no es una conclusión universal, sino "una mejora en cierto tipo de tareas a cambio de una cantidad considerable de poder de cómputo".

Especialmente en trabajos prioritarios por amplitud y paralelizables, y gracias a un mecanismo de verificación cruzada más fuerte, la precisión de la información es mejor.

Además, se debe diseñar cuidadosamente, realizando una buena descomposición de tareas y aislamiento de roles, en lugar de simplemente "apilar más agentes".

De lo contrario, sería un malentendido de nueva generación sobre la producción de 18,000 jin por mu.

Estos puntos también se reflejan en el artículo anterior sobre cómo usar los Dynamic Workflows de Claude para investigación profunda.

Experiencia 3: Establecer un rol de estrella polar, dejar que el agente resuelva problemas de forma proactiva

El artículo distingue dos tipos de agentes: uno que simplemente "completa las tareas asignadas", mientras que el más importante inicia proactivamente nuevos proyectos y flujos de trabajo.

Este último suele aparecer en un equipo que ya tiene un contexto rico y roles claros, junto con una directriz adicional: la estrella polar (north star).

La estrella polar es responsable de ayudar al equipo a juzgar "qué tareas y flujos de trabajo son los correctos".

El artículo enfatiza varias disciplinas:

La estrella polar siempre la establecen los humanos, y está arraigada en la misión y los objetivos comerciales de la empresa;

•Una vez que la estrella polar está claramente escrita, los humanos la comparten con los agentes del equipo;

•Luego — este paso es crucial — los humanos seleccionan qué agentes deben proponer proactivamente nuevos flujos de trabajo.

Supongamos una empresa y producto impulsados por operaciones; entonces el rol de operaciones debería ser el agente dominante, en lugar de estar impulsado por producto, tecnología o finanzas.

Al igual que el patrón de ruteo (Classify-And-Act) en el estudio de Dynamic Workflows de Claude, donde un agente primero clasifica el tipo de tarea y luego la distribuye al agente especializado más adecuado.

En mi opinión, en artículos anteriores de Anthropic, he visto reflejado lo que ellos consideran agente y workflow.

El primero "dinámicamente dirige su propio proceso y uso de herramientas, controlando cómo completar la tarea".

Mientras que el segundo es un sistema determinista "orquestado a través de rutas de código predefinidas".

Por lo tanto, para construir un equipo de IA, se debe dar al agente una estrella polar en lugar de una lista de tareas; esto es precisamente empujar conscientemente el sistema de workflow hacia agente.

Un equipo con un objetivo trae cierta creatividad, en lugar de buscar problemas dentro de un ámbito limitado.

Por supuesto, muchos de los equipos de IA que construimos ahora son en realidad flujos de trabajo programáticos o asistidos por IA, lo que ya resuelve muchos problemas. Si en el futuro necesitamos creatividad, automotivación y capacidad proactiva para resolver problemas, entonces debemos diseñar este tipo de equipo basado en agentes.

@E5 @ Experiencia 4: Dejar que el agente crezca con el tiempo

Aquí los datos oficiales me sorprendieron mucho: dice que los ingenieros de Anthropic ya han logrado que los agentes en el equipo manejen de forma independiente 500 correcciones de errores — pero inmediatamente enfatiza: "things certainly didn't start off that way (ciertamente no comenzó así)".

Compara al agente con un colega humano recién llegado: necesita múltiples rondas de retroalimentación para externalizar el conocimiento tácito de "cómo hacer mejor la tarea".

El usuario debe probar repetidamente al agente con diversas tareas para descubrir los límites de sus capacidades, cómo describir los objetivos con claridad, qué archivos de skill necesita, qué prompt provoca mejor el comportamiento deseado.

El artículo también advierte sobre un punto fácilmente pasado por alto: el modelo se actualiza, las tareas deben reevaluarse — el prompt puede necesitar reescribirse, los arneses (Harness) que antes eran útiles podrían restringir a un modelo más inteligente para encontrar soluciones más creativas.

El mayor valor de esta experiencia está en la discusión sobre verificación:

Hemos descubierto que los mejores agentes de largo plazo, antes de mostrarlos a los humanos, tienen muchas formas de verificar su propio trabajo.

  • El código tiene pruebas, por supuesto;

  • Pero la mayoría de los otros trabajos también se pueden verificar: los documentos técnicos pueden evaluarse con rúbricas (rubric) y guías de estilo (style guide);

  • Cuando los humanos establecen los estándares y se aseguran de que todo el trabajo entregado al agente sea revisable, la calidad se mantiene y no se desvía de la intención original;

  • Además, se puede dejar que un agente trabaje y otro agente revise — esto es el conocido arnés de agente "Doer-Verifier" (ejecutor-verificador).

El artículo presenta un caso completo: un responsable de ingeniería asume un equipo nuevo con un gran backlog, y reúne a varias personas + varios agentes para priorizar juntos.

Un grupo de agentes lee todos los elementos del backlog, determina si alguien los está trabajando y asigna puntuaciones de complejidad a los no asignados;

Otro grupo selecciona de la lista los elementos de complejidad media-baja y produce directamente cambios de código.

Al principio, los humanos revisan cada decisión del agente y marcan aquellas que requieren intervención humana; luego, los humanos "enseñan" al agente a elevar directamente esas decisiones a los humanos, asegurando que las decisiones con compensaciones difíciles siempre tengan "human in the loop".

Y cada semana, el equipo hace que el agente compile un informe semanal que incluya "lecciones y errores (lessons & missteps)", para que el agente recuerde los errores y evite repetirlos. Con el tiempo, el responsable puede asignar al agente cambios cada vez más complejos, dedicando cada vez menos tiempo a la orientación diaria, como se muestra a continuación:

Muy parecido al proceso de criar una langosta inteligente.

El último párrafo es la observación que más aprecio de todo el artículo: cuando el agente se vuelve más independiente, el responsable comienza a enseñar al agente a tratar la "atención humana" como un recurso escaso:

Por ejemplo, agrupar problemas para que los humanos los respondan de una sola vez, repetir el contexto clave para que los humanos se pongan rápidamente en situación, limitar la cantidad de asuntos que se le entregan a la vez a una persona.

Algunos incluso designan un agente específico cuya única función es decidir cómo agrupar y solo escalar a los humanos las comunicaciones más importantes.

Otros ponen límites al agente como "máximo cuánto trabajo hacer al día" — para que los humanos tengan tiempo de participar de manera significativa y preservar sus habilidades importantes para no perderlas.

En mi opinión, estas experiencias son lo más profundo del artículo en cuanto a la "relación humano-máquina".

  • Primero, en el pensamiento de Anthropic: la supervisión efectiva no es aprobar cada acción, sino "estar en una posición para intervenir cuando sea importante" (being in a position to intervene when it matters).

  • Segundo, tratar explícitamente la "atención humana" como un recurso escaso a optimizar es un principio de diseño muy subestimado. La mayoría de las discusiones sobre agentes se centran en optimizar la "capacidad del agente", cuando el cuello de botella real ya es el "ancho de banda cognitivo humano".

  • Tercero, la ingeniería de arneses (Harness) en equipos humano-máquina debería simular completamente la forma de un equipo eficiente, después de todo, algunos buenos caballos realmente no necesitan riendas, solo un objetivo.

IV. La era de la colaboración humano-máquina amplificará sin piedad la calidad organizativa del equipo original

La oración más honesta y fácil de pasar por alto de este artículo aparece al final:

Dice que las 4 experiencias anteriores no son novedosas; ya existían antes de la llegada de la IA. Un buen equipo necesita una estrella polar sólida, roles claros, documentación sólida, estándares de calidad compartidos y espacio para aprender de los errores. Son hábitos de equipo saludables que conocemos desde hace décadas.

Y un equipo de agentes de IA solo hace que estas habilidades básicas sean aún más importantes.

Sin una construcción de mecanismos razonable, la IA no hará que el equipo sea más fuerte automáticamente, sino que puede causar presión y eventualmente generar caos, como por ejemplo:

  • Equipos con contexto disperso (por ejemplo, que gestionan basándose en diferencias de información), al incorporar un agente se volverán aún más dispersos (cuanto mayor sea el aislamiento de información, más se desviarán los resultados);

  • Equipos con roles mal definidos, el agente solo replicará el caos, con responsabilidades laborales desordenadas y distorsión de las fuentes de juicio de los decisores.

  • Equipos sin cultura de verificación, los errores del agente se escalarán a mayor velocidad, la velocidad del código de IA ya supera con creces la velocidad de CR humana.

Por lo tanto, en mi opinión, "el equipo que más se beneficie de esta ola de agentes será también aquel que tenga la mayor conciencia de practicar estas habilidades básicas".

Para las organizaciones que están apostando por los agentes de IA, la verdadera tarea que plantea este artículo quizás no está en "cómo usar Claude", sino en volver a hacer bien estas cuatro cosas viejas: contexto, roles, objetivos y estándares de calidad de su propio equipo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios