Harness se ha vuelto popular, pero la gente no ha entendido quién es realmente su objetivo.

Palo Alto por la mañana, el café acaba de llegar, Alan Walker mira hacia abajo y se encuentra con el artículo de Anthropic sobre harness, levanta la vista y solo dice una frase:

“Muchos piensan que esto significa que el modelo ha mejorado un poco más. Se equivocan, es el proceso comenzando a traicionar a las personas.”

Este artículo aparentemente habla de diseño de ingeniería, de planner, generator, evaluator, y de cómo hacer que Claude funcione durante varias horas, creando productos más complejos.

La mayoría de las personas se detienen aquí. Ellos piensan:

Oh, resulta que el agente es más complejo, el prompt es más largo, el flujo de trabajo es más detallado.

Pero Alan dice que lo que realmente vale la pena observar nunca son las funciones superficiales, sino hacia qué capa se está transfiriendo el poder.

En el pasado, para completar una tarea compleja, era necesario que alguien descompusiera los requisitos, alguien ejecutara, alguien verificara, alguien hiciera la retrabajo, alguien se asegurara.

Ahora, lo que Anthropic está haciendo no es hacer que el modelo se asemeje más a un empleado inteligente, sino que está haciendo que todo el sistema comience a asumir el nivel de organización, supervisión y aceptación que originalmente pertenecía a las personas.

Harness no es un complemento. Harness es la máquina comenzando a desarrollar una “capa de gestión”.

Este es su verdadero aspecto aterrador.

01 No es una herramienta, es “la capa que gestiona las herramientas”

Cuando muchas personas ven harness, su primera reacción es: ¿no es solo otro marco de agente?

Esta comprensión es demasiado superficial.

La esencia de una herramienta ordinaria es obedecer órdenes y luego ejecutar. Haces clic, y ella hace algo. No dices nada, no se mueve.

Pero harness ya no sigue esta lógica. Lo que realmente hace es softwareizar la estructura de división del trabajo que antes estaba oculta en los equipos humanos:

Quién entiende los requisitos, quién los descompone en fases, quién ejecuta, quién verifica, quién después de encontrar un problema tiene el poder de devolverlo para rehacerlo.

Es decir, Anthropic no está acumulando más funciones, sino que está incorporando “cómo organizar el trabajo” en el sistema mismo.

¿Por qué es importante este paso? Porque lo que más difícil ha sido de replicar en el pasado no ha sido la capacidad puntual, sino la capacidad organizativa.

Hay muchas personas que saben escribir código.

Pero hay muy pocas que pueden organizar a decenas de personas, decenas de pasos y decenas de rondas de retrabajo, y finalmente entregar de manera estable.

Y lo que harness toca es precisamente esta capa de lo más valioso.

Las herramientas mejoran la eficiencia, la organización determina la producción.

Un modelo individual es solo mano de obra, Harness comienza a tocar la estructura de la empresa.

Cuando la IA no solo puede trabajar, sino que también comienza a dividir el trabajo, a hacer transferencias y a asumir responsabilidades, ya no es tan simple como una “actualización de herramientas”.

02 No es más inteligente, es menos propenso a fracasar

Lo más confuso de los modelos es que siempre parecen muy inteligentes en tareas cortas.

Le haces una pregunta y responde de manera convincente; le pides que escriba un código y a menudo lo hace bastante bien. Así que muchas personas se engañan pensando: ya que puede hacer tareas cortas, ¿no es solo cuestión de dejarlo funcionar más tiempo para tareas largas?

Totalmente incorrecto.

Lo realmente difícil de las tareas largas no es que no pueda hacer un paso, sino que después de decenas de pasos pueda seguir sin perder el hilo, sin perder el control, sin autoengañarse.

Lo mismo ocurre con los humanos en los proyectos. Lo que más temen no es no poder hacerlo, sino que al avanzar comienzan a desordenarse:

No recuerdan bien los requisitos,

Los objetivos empiezan a desviarse,

La lógica entre los pasos no es coherente,

Finalmente, lo que mejor hacen no es terminar la tarea, sino escribir un resumen que parezca que se ha completado.

El problema central mencionado en el artículo de Anthropic es, en esencia, este:

Los modelos pierden el hilo en tareas a largo plazo. Cuanto más largo es el contexto, más desordenado está el estado, y más fácil es caer en una ilusión psicológica de “más o menos está bien”.

El valor de Harness no está en hacerlo más ágil, sino en hacerlo menos disperso, menos superficial, menos fácil de engañar.

Descomponer fases, realizar transferencias, establecer contratos, evaluar de manera independiente, revertir fallos, estos que parecen ser detalles del proceso, en realidad están resolviendo un mismo problema fundamental:

La inteligencia puede ser inestable, pero la entrega no puede depender de la suerte.

Así que si realmente quieres comprender harness, primero debes entender una cosa:

Lo que realmente valdrá la pena en el futuro no es quién puede ocasionalmente hacer una demostración impresionante.

Sino quién puede hacer que el sistema avance de manera continua durante varias horas, días e incluso más tiempo, sin fracasar.

Saber escribir no es sorprendente.

Lo sorprendente es no colapsar al final.

Un destello de ingenio no tiene valor, la entrega estable tiene valor.

Alan dice que la frase más fría de Anthropic no es planner, ni generator, sino evaluator.

¿Por qué?

Porque los grandes modelos tienen un defecto que es extremadamente similar al de los humanos: lo que hacen, siempre sienten que está bien.

Siempre que no haya restricciones externas, es muy fácil que se den una autoevaluación de “en general está bien”, “básicamente completado”, “las funciones principales ya están presentes”.

El problema es que muchas veces, esta evaluación no es una mentira, sino una forma de autoindulgencia sistemática.

¿Por qué muchos proyectos en las empresas humanas terminan fracasando?

Porque quienes trabajan a menudo son los que más razones encuentran para justificarse.

Quien lo hace dice que ya está casi listo,

Quien realiza la aceptación no se molesta en mirar en profundidad,

Así que algo “más o menos” es aprobado y finalmente explota en manos del usuario.

Una de las cosas más duras de Anthropic es que descompone este asunto:

Quien trabaja es un rol,

Quien busca errores es otro rol.

El primero es responsable de avanzar, el segundo es responsable de dudar.

La lógica detrás de esto es muy profunda:

Una vez que los derechos de producción y evaluación se separan, el sistema comienza a formar realmente un ciclo cerrado.

Y lo más aterrador es que Anthropic no solo deja que el evaluator diga un par de frases de “creo que esto está mal”. Está tratando de estructurar la “búsqueda de errores”:

Las funciones deben ser medidas, las páginas deben ser clicadas, las interfaces deben ser revisadas, el estado de la base de datos debe ser observado, la calidad del diseño también se descompone en dimensiones que pueden ser calificadas.

¿Qué significa esto?

Significa que muchos de los juicios que antes eran misteriosos para los humanos están siendo descompuestos en procesos, estándares y umbrales.

Lo primero que se automatiza a menudo no es la fuerza física, sino la búsqueda de errores.

Una vez que “esto realmente funciona o no” se convierte en un proceso, las fortalezas de la experiencia de muchas personas comenzarán a filtrarse.

Muchos roles en el pasado eran valiosos no porque producían, sino porque tenían el poder de decir “esto cumple o no”.

Ahora, ese poder comienza a aflojarse de las manos de las personas.

03 La frase más dura es no permitirle autoelogiarse

Alan dice que la frase más fría de Anthropic no es planner, ni generator, sino evaluator.

¿Por qué?

Porque los grandes modelos tienen un defecto que es extremadamente similar al de los humanos: lo que hacen, siempre sienten que está bien.

Siempre que no haya restricciones externas, es muy fácil que se den una autoevaluación de “en general está bien”, “básicamente completado”, “las funciones principales ya están presentes”.

El problema es que muchas veces, esta evaluación no es una mentira, sino una forma de autoindulgencia sistemática.

¿Por qué muchos proyectos en las empresas humanas terminan fracasando?

Porque quienes trabajan a menudo son los que más razones encuentran para justificarse.

Quien lo hace dice que ya está casi listo,

Quien realiza la aceptación no se molesta en mirar en profundidad,

Así que algo “más o menos” es aprobado y finalmente explota en manos del usuario.

Una de las cosas más duras de Anthropic es que descompone este asunto:

Quien trabaja es un rol,

Quien busca errores es otro rol.

El primero es responsable de avanzar, el segundo es responsable de dudar.

La lógica detrás de esto es muy profunda:

Una vez que los derechos de producción y evaluación se separan, el sistema comienza a formar realmente un ciclo cerrado.

Y lo más aterrador es que Anthropic no solo deja que el evaluator diga un par de frases de “creo que esto está mal”. Está tratando de estructurar la “búsqueda de errores”:

Las funciones deben ser medidas, las páginas deben ser clicadas, las interfaces deben ser revisadas, el estado de la base de datos debe ser observado, la calidad del diseño también se descompone en dimensiones que pueden ser calificadas.

¿Qué significa esto?

Significa que muchos de los juicios que antes eran misteriosos para los humanos están siendo descompuestos en procesos, estándares y umbrales.

Lo primero que se automatiza a menudo no es la fuerza física, sino la búsqueda de errores.

Una vez que “esto realmente funciona o no” se convierte en un proceso, las fortalezas de la experiencia de muchas personas comenzarán a filtrarse.

Muchos roles en el pasado eran valiosos no porque producían, sino porque tenían el poder de decir “esto cumple o no”.

Ahora, ese poder comienza a aflojarse de las manos de las personas.

04 Lo primero que será consumido no son los programadores, sino el “más o menos está bien”

Al ver este tipo de artículo, muchas personas reaccionan automáticamente con: ¿los programadores están acabados?

Alan dice que esta forma de plantear la pregunta es demasiado superficial y perezosa.

Lo primero que harness consume no es un nombre de profesión.

Lo que primero consume es una forma de supervivencia que ha existido a largo plazo y que es muy común en casi todos los trabajos de conocimiento:

Los requisitos no están claros, se hace de todos modos;

Si se desvía a mitad de camino, se corrige después;

El resultado es mediocre, pero funciona;

La documentación no está clara, pero todos en el equipo lo entienden;

Se lanza primero y después se arreglan los problemas.

En otras palabras, es un conjunto completo de formas de trabajo basadas en espacios vagos y la flexibilidad humana.

Muchos proyectos pueden seguir avanzando no porque el proceso sea realmente claro, sino porque siempre hay alguien que llena los huecos con experiencia, con reemplazo o con juicios temporales.

Lo que harness está haciendo es precisamente lo contrario.

Está comprimiendo el espacio vago.

Está comprimiendo el espacio de excusas.

Está comprimiendo el espacio de supervivencia de “yo pensé”, “más o menos”, “debería funcionar”.

Define primero lo que significa “hecho” en esta ronda, luego permite comenzar el trabajo;

Si no cumple, se devuelve;

Si no pasa la verificación, se sigue;

No se necesitan sentimientos, se necesitan pruebas.

Una vez que esta lógica avanza, lo más peligroso no son las personas que mejor escriben código, sino aquellas que más dependen de sobrevivir en zonas grises.

Harness no consume a los programadores, lo primero que consume es la vaguedad.

No todos serán reemplazados, pero cada puesto que dependa de la ambigüedad se devaluará primero.

Antes, muchos roles sobrevivían gracias a la diferencia de información, en el futuro muchos roles morirán debido a la diferencia estándar.

05 ¿Por qué ha cobrado relevancia ahora?

Muchas personas se preguntan, este tipo de flujo de trabajo ya se había hecho antes, ¿por qué esta vez todos han comenzado a tomárselo en serio?

Porque antes el modelo base no era lo suficientemente fuerte.

Dicho de manera más directa:

Antes, muchos de estos marcos parecían muy atractivos, eran pesados de ejecutar, pero no eran lo suficientemente robustos.

Has montado un montón de procesos, acumulado un montón de roles, escrito un montón de reglas, y al final solo has envuelto un modelo poco confiable en un sistema más complejo que también es poco confiable.

Así que en el pasado, muchas personas perdieron la paciencia con agentes, flujos de trabajo y andamiajes, lo cual es normal.

No es que la dirección estuviera equivocada, sino que la plataforma no llegó a esa etapa.

Ahora es diferente.

Una vez que el modelo supera cierto umbral, muchos de los procesos que antes parecían decorativos comienzan a liberar su verdadero valor por primera vez.

Porque cuando el modelo base es lo suficientemente fuerte, el proceso ya no es para soportar a un inútil, sino para amplificar un sistema que ya puede trabajar de manera continua.

Esta es la razón por la que harness ahora parece “un poco real”.

No es que su idea haya surgido hoy, sino que el modelo finalmente es lo suficientemente fuerte como para beneficiarse de los procesos.

Alan lo expresó con gran precisión:

La capacidad del modelo es el motor, Harness es la caja de cambios.

Antes, sin un buen motor, cualquier buena caja de cambios era solo un adorno.

Pero cuando el motor es lo suficientemente potente, la caja de cambios comienza a decidir quién puede ir a alta velocidad y quién todavía está acelerando en el mismo lugar.

Así que esta ola no es solo una moda técnica, sino que la industria está enviando una señal más profunda:

La competencia futura no será solo quién tiene un modelo más fuerte, sino quién primero integra el modelo en su sistema de producción.

06 “El humano se supone que ocupa el centro”

Finalmente, Alan dejó su taza y dijo la frase más fría de aquel día:

“Antes, las personas vigilaban a los programas trabajar, y ahora son los programas los que vigilan a los programas trabajar.”

¿Por qué es tan impactante esta frase?

Porque revela que lo que realmente está reescribiendo harness no es un puesto, sino un supuesto más fundamental que casi nadie había cuestionado en el pasado:

En el trabajo digital, se supone que debe haber una persona en el centro.

Él es quien descompone las tareas,

quien monitorea el progreso,

quien juzga la calidad,

quien coordina los retrabajos,

quien asume la responsabilidad final.

Esta “persona que se supone que está en el medio” puede ser un programador, un PM, un TL, un líder de diseño, un QA o un gerente de proyecto.

El nombre no es importante.

Lo importante es que todo el sistema de producción digital en el pasado ha supuesto que no puede prescindir de un centro humano así.

Lo que realmente afecta a Harness es esta posición central.

No se trata de echar a las personas hoy, sino de demostrar gradualmente:

Que algunas descomposiciones pueden hacerse sistemáticamente,

Que algunos niveles de supervisión pueden hacerse sistemáticamente,

Que algunas verificaciones pueden hacerse sistemáticamente,

Que algunas reversas y reintentos también pueden manejarse sin que las personas tengan que descubrirlo y luego gestionarlo.

A medida que se demuestre más y más, la posición de las personas no desaparecerá de inmediato, pero comenzará a sumergirse.

De ser el centro por defecto, pasará a ser una intervención excepcional;

De monitorear todo el proceso, pasará a solo manejar problemas marginales;

De ser el dueño del proceso, pasará a ser el observador del proceso.

Este es el verdadero elemento que harness ha consumido.

No son los programadores.

No son los gerentes de producto.

No son los QA.

Sino la suposición más profunda detrás de estos roles:

Los humanos se suponen que son el centro del proceso.

Y una vez que este supuesto comienza a aflojarse, la historia posterior será completamente diferente.

En la era de las herramientas, la competencia se basaba en quién sabía usar mejor las herramientas.

En la era de Harness, la competencia se basa en quién acepta antes:

que ya no están naturalmente en el centro del sistema.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado