Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
CFD
Derivados de CFD de acciones estadounidenses
Acciones EE. UU.
Accede a acciones y ETF estadounidenses reales
Acciones HK
Opera con acciones de calidad cotizadas en Hong Kong
Acciones surcoreanas
Opera con acciones surcoreanas reales e invierte en activos populares
Futuros de acciones
Alto apalancamiento, trading 24/7
Acciones tokenizadas
Respaldado por acciones reales
IPO Access
Accede al acceso completo a las OPV de acciones globales
GUSD
Acuña GUSD para obtener rendimientos de RWA del Tesoro
Actividades de acciones
Opera con acciones populares y desbloquea grandes airdrops
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
IPO Access
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
USD1 8% TAE
Sin bloqueo, opera y retira
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
¿Quién es el que mejor sabe usar Claude Code? La respuesta quizás no sea un programador
> Título original: Agentic coding and persistent returns to expertise
> Autor original: Anthropoic
> Traducción: Peggy
>
Prólogo: Este informe se basa en aproximadamente 400,000 sesiones de Claude Code, discutiendo cómo las herramientas de programación con IA están cambiando la relación entre las personas y el código.
El hallazgo central es: en la programación con agentes inteligentes, los humanos deciden principalmente "qué hacer", mientras que Claude se encarga de "cómo hacerlo". Los usuarios asumen la mayor parte de las decisiones de planificación, y Claude realiza la mayor parte del trabajo de ejecución. Es decir, la IA está tomando el control en etapas como escribir código, modificar archivos, ejecutar comandos y depurar, pero la definición de objetivos y la evaluación de resultados siguen dependiendo de las personas.
Más importante aún, el efecto de usar Claude Code no depende solo de si el usuario es programador. El informe muestra que, en tareas de generación de código, usuarios de profesiones no técnicas como leyes, finanzas, gestión e investigación científica tienen tasas de éxito que ya se acercan a las de ingenieros de software. Lo que realmente influye en los resultados es si el usuario comprende el problema que quiere resolver.
Esto significa que la programación con IA reduce la barrera de entrada para la implementación, pero no la de juicio. En el futuro, las personas que entienden el negocio, el escenario, y pueden expresar claramente sus necesidades y evaluar los resultados, podrían usar mejor la IA que quienes solo saben programar. La IA no reemplazará automáticamente el conocimiento del dominio, sino que potenciará su valor.
A continuación, el texto original:
Hallazgos clave
Basándonos en investigaciones previas, proponemos un marco para estudiar la programación interactiva con agentes inteligentes. Este marco se fundamenta en un análisis de privacidad de aproximadamente 400,000 sesiones de Claude Code entre octubre de 2025 y abril de 2026, evaluando la composición de tareas, la colaboración entre humanos y IA, y las tasas de éxito.
En una sesión típica, el humano se encarga de la mayoría de las decisiones de planificación, es decir, decide "qué hacer"; Claude se ocupa de la mayoría de las decisiones de ejecución, es decir, "cómo hacerlo". Cuanto mayor sea la experiencia del usuario en un campo específico, mayor será la cantidad de trabajo que Claude realiza en respuesta a sus instrucciones. En tareas de codificación, la tasa de éxito promedio de diferentes grupos profesionales —es decir, si lograron hacer lo que originalmente querían, con evidencia verificable como pruebas o envío de código— casi iguala a la de ingenieros de software.
Cuanto más competente sea el usuario en su dominio, más probable será que la sesión termine con éxito. Sin embargo, la diferencia entre usuarios intermedios y expertos no es significativa. En los siete meses que observamos, la proporción de sesiones usadas para depuración se redujo casi a la mitad, y el modo de uso se orientó hacia aplicaciones más end-to-end: desplegar y ejecutar código, analizar datos y redactar documentación no relacionada con código.
En estos siete meses, el valor de las tareas típicas aumentó en casi todos los tipos de trabajo. Estimamos el valor económico de cada sesión comparándolo con publicaciones de trabajos freelance, ajustando con datos reales de ofertas de empleo, y encontramos un aumento promedio de aproximadamente 25%.
Introducción
La programación con agentes está emergiendo rápidamente. Desde finales de 2025, la proporción de proyectos en GitHub que involucran actividades de agentes de codificación se ha duplicado, y los usuarios de Claude Code ahora lo usan en promedio 20 horas por semana. ¿Pueden las personas sin experiencia formal en programación dirigir con éxito un agente para realizar tareas técnicas complejas? ¿Cómo afectará esta rápida adopción y mejora de capacidades a un trabajo más amplio basado en conocimientos? Aún no tenemos respuestas definitivas, pero los datos de uso de Claude Code ofrecen algunas señales tempranas.
Este informe se basa en un análisis de privacidad de aproximadamente 235,000 usuarios y 400,000 sesiones interactivas entre octubre de 2025 y abril de 2026, proporcionando evidencia sobre el uso real de Claude Code. Continúa nuestra investigación previa sobre los indicadores de autonomía en sesiones de Claude Code y cómo estas cambian las dinámicas internas en Anthropoc. Presentamos un marco para describir el uso de asistentes de programación IA interactivos: qué hacen las personas, quién hace qué, y si el trabajo tiene éxito. Nos centramos en el uso de Claude Code a través de interfaces de línea de comandos (CLI), Claude.ai o la aplicación de escritorio Claude Code. Al seguir cómo cambian las formas de usar la programación con agentes a medida que aumentan las capacidades del modelo, podemos entender mejor el impacto en profesionales de la programación y en el mercado laboral de trabajadores del conocimiento.
Lo que sucede en Claude Code quizás predice el futuro del trabajo basado en conocimientos: los agentes se integrarán gradualmente en tareas no relacionadas con codificación. Hemos observado que Claude está manejando tareas más complejas y valiosas. Al mismo tiempo, la división del trabajo en programación con agentes sigue siendo clara: los humanos deciden qué construir, y los agentes deciden cómo construirlo.
También encontramos evidencia de que el verdadero amplificador de la efectividad de las herramientas es el conocimiento especializado en el dominio, no la habilidad de programar. En particular, los expertos en dominio tienen más éxito y recuperan más fácilmente de errores o malentendidos. Sin embargo, la diferencia entre usuarios intermedios y expertos no es grande. Esto indica que, con suficiente competencia en un campo, casi cualquier persona puede usar estas herramientas de manera efectiva, como un experto profundo.
Estos hallazgos nos permiten vislumbrar posibles cambios en el mercado laboral. Nuestros datos muestran que el éxito depende de si la persona comprende el problema que quiere resolver, no de si ha sido entrenada en programación. Si estos patrones se mantienen en toda la economía, significa que, aunque las herramientas de programación con agentes puedan absorber algunos trabajos orientados a la implementación, también recompensan a quienes realmente entienden los problemas que abordan. Programar agentes no reemplaza el conocimiento del dominio; al contrario, cuanto más comprenda el trabajador el área, más trabajo de calidad podrá realizar con la ayuda de la IA.
División del trabajo
Qué hacen las personas con Claude Code
Para entender cómo usan Claude Code, clasificamos cada sesión en uno de nueve modos de trabajo, que mejor describen el objetivo principal de esa sesión. Cuatro de estos modos involucran directamente la escritura o mantenimiento de código: construir algo nuevo, reparar algo dañado, probar código, y coordinar otros agentes o pipelines automatizados. Otro grupo se relaciona con operar software, incluyendo desplegar, configurar, ejecutar pipelines y monitorear sistemas. Dos más se centran en entender "qué hacer": comprender cómo funciona un sistema existente y planear cambios antes de actuar. Los últimos dos están relacionados con análisis de datos y comunicación mediante presentaciones y otros documentos basados en texto.
Aproximadamente el 56% de las sesiones consisten en escribir código (25%), reparar código (26%), o probar y coordinar código (5%). Operar software representa el 17%, planear o explorar el tarea el 14%, y analizar o redactar textos el 13% (ver figura 1).
> Figura 1: Los nueve modos de trabajo. Cada sesión interactiva se clasifica en el modo que mejor describe su objetivo.
Primero, hacemos que el modelo lea los registros de la sesión y los clasifique; luego, usamos nuestra herramienta de análisis de privacidad para cruzar los resultados con los datos de telemetría automática, incluyendo si se añadieron o eliminaron líneas de código. La alta coherencia entre ambas fuentes es evidente. Por ejemplo, en sesiones etiquetadas por nuestro clasificador como creación o modificación de código, más del 90% también muestran cambios en telemetría. Más detalles en el apéndice.
¿Quién toma las decisiones?
¿Hasta qué punto Claude Code es autónomo? La evaluación de capacidades muestra que su potencial máximo ya es alto y sigue creciendo. Por ejemplo, en benchmarks como METR, los modelos de vanguardia ahora pueden completar tareas de software que antes requerían horas humanas, y superar obstáculos por sí mismos. Pero, ¿cómo funciona en la práctica? Aquí, nos centramos en cuánto trabajo de guía asumen realmente humanos y Claude en las sesiones reales.
Abordamos esto desde dos perspectivas. Primero, cuánto confían los usuarios en que Claude tome decisiones; segundo, cuánto asignan a Claude en acciones concretas. Para entender la división de decisiones en una sesión, construimos un clasificador de atribución de decisiones con protección de privacidad, que identifica todas las decisiones relevantes y las clasifica en decisiones de planificación y de ejecución. Las decisiones de planificación incluyen qué hacer, qué método usar, qué significa completar; las de ejecución incluyen qué archivos modificar, qué código escribir, en qué lenguaje, y qué comandos ejecutar. Luego, el clasificador atribuye cada decisión a Claude o al usuario, y genera dos porcentajes: cuánto del trabajo de planificación y cuánto del de ejecución asume el usuario.
En promedio, los humanos toman aproximadamente el 70% de las decisiones de planificación, pero solo el 20% de las decisiones de ejecución (ver figura 2). En la práctica, la programación con agentes muestra una división clara del trabajo: los humanos deciden qué construir, y los agentes cómo hacerlo.
Para entender cuánto delegan en el agente las acciones en una sesión, no analizamos el contenido, sino la estructura de la interacción. Las sesiones de Claude Code consisten en intercambios entre Claude y el usuario: el usuario envía instrucciones, Claude realiza acciones; luego, el usuario envía la siguiente instrucción, y así sucesivamente. En una sesión típica, hay unas cuatro rondas. En nuestros datos de octubre a abril, cada instrucción del usuario suele activar unas 10 acciones de Claude, a veces más de 100. En cada ronda, Claude lee archivos, edita código, ejecuta comandos, y en promedio produce unas 2,400 palabras.
La cantidad de trabajo que Claude realiza entre dos revisiones por parte del usuario depende en gran medida de quién toma las decisiones. Cuando el usuario mantiene el control de la ejecución, haciendo más del 80% de las decisiones de ejecución, Claude realiza menos acciones por ronda, unas 8. Cuando Claude asume el control de la planificación, haciendo más del 80% de las decisiones de planificación, realiza hasta 16 acciones por ronda.
> Figura 2: Proporción de decisiones de planificación y ejecución atribuidas a Claude. La figura muestra la distribución de las decisiones de planificación (qué hacer) y de ejecución (cómo hacerlo) en diferentes sesiones, en las que las decisiones de Claude o del usuario predominan. En sesiones típicas, el usuario realiza aproximadamente el 70% de las decisiones de planificación, y Claude el 80% de las decisiones de ejecución.
Nivel profesional
Según cada registro de sesión, Claude evalúa el nivel de competencia aparente del usuario en esa tarea en una escala de cinco niveles, desde principiante hasta experto. El clasificador de nivel profesional se basa en tres señales: qué tan precisas son las instrucciones del usuario, qué aspectos requiere que Claude verifique, y si el usuario corrige a Claude con frecuencia o viceversa. Es importante notar que este nivel profesional no es equivalente a la posición o capacidad general del usuario, sino que es específico para cada tarea. Por ejemplo, un ingeniero senior que pregunta por Rust por primera vez puede ser un principiante en esa tarea; una contadora sin experiencia en Python, si puede indicarle a Claude las reglas de conciliación en un script y detectar errores en el cierre mensual, sería una experta en esa tarea.
La tabla a continuación muestra cómo definimos los niveles en el clasificador, y ejemplos de solicitudes en el conjunto de datos público SWE-chat, que contiene conversaciones reales con agentes de codificación. Las conversaciones clasificadas como "principiante" contienen instrucciones genéricas sin conocimientos específicos del dominio; las de "experto" muestran un profundo entendimiento del código y del entorno técnico.
> Tabla 1: Clasificación de niveles profesionales. Ejemplos de conversaciones reales, modificadas, anonimizadas y comprimidas, etiquetadas por nuestro clasificador. Muchos ejemplos provienen del conjunto de datos público SWE-chat.
Hemos cuantificado cómo el nivel profesional se relaciona con la cantidad de acciones y la salida generada por Claude en cada instrucción. En sesiones típicas de principiante, cada instrucción activa unas 5 acciones y produce unas 600 palabras; en sesiones de experto, la cadena de acciones es más larga, aproximadamente 12 acciones, y la salida alcanza unas 3,200 palabras, cinco veces más (ver figura 3). La diferencia entre principiante y experto aparece en todos los tipos de trabajo y en todos los rangos de valor de tarea.
Estos indicadores complementan nuestra investigación previa sobre la autonomía de Claude Code. Antes, rastreábamos cuánto tiempo operaba el agente y con qué frecuencia los usuarios aprobaban automáticamente sus acciones. Ahora, nuestros indicadores de atribución de decisiones capturan quién toma decisiones sustantivas en toda la sesión, y la cantidad de salida y acciones por instrucción miden cuánto puede actuar de forma autónoma Claude en respuesta a las instrucciones humanas.
> Figura 3: Con usuarios más profesionales, Claude realiza más trabajo por instrucción. Cuanto mayor sea el nivel profesional, mayor será el número de acciones (barra izquierda) y la cantidad de texto generado (barra derecha) por cada instrucción. La caja muestra el rango intercuartílico, con la mediana en el centro. Las líneas de "bigotes" representan el 5 y 95 percentil. Los puntos blancos son medias geométricas. Ambas tendencias son estadísticamente significativas (p < 0.001), y las diferencias entre niveles profesionales adyacentes también lo son. Tras controlar por modo de trabajo, valor de tarea, mes, profesión y serie del modelo, y ajustar por errores estándar agrupados por usuario, la tendencia sigue siendo significativa: cada nivel adicional de profesionalismo aumenta en un 9% las acciones y en un 13% la salida.
¿Quién usa Claude Code y para qué?
Usuarios
Para entender quién realiza estas tareas, inferimos la profesión de cada usuario a partir de los registros de sesión, y la mapeamos a una de las 23 categorías principales del sistema de clasificación laboral de EE. UU. (SOC). El clasificador solo se basa en señales como: el contexto cargado al inicio de la sesión, nombres y estructuras de archivos, referencias a materiales o productos (como documentos legales, datos clínicos, informes financieros, materiales de cursos), y el vocabulario utilizado. Se especifica que "escribir código" en sí mismo no se considera evidencia de que el usuario sea programador. Solo si hay señales claras de que la tarea involucra trabajo con software o datos, la sesión se clasifica en la categoría de "profesiones relacionadas con la computación y matemáticas". Por ejemplo, si un abogado crea un script para verificar automáticamente la ausencia de cláusulas en contratos, aunque la tarea principal sea escribir software, se clasifica como trabajo legal. Si no hay señales sobre la profesión del usuario, la sesión no se clasifica.
Podemos inferir la profesión en aproximadamente el 70% de las sesiones. Entre estas, la categoría más grande es "profesiones relacionadas con la computación y matemáticas", lo cual no sorprende, pues abarca la mayoría del trabajo en software. Le siguen áreas como negocios y finanzas, arte y medios, gestión, y ciencias de la vida, física y sociales. En nuestra muestra, las profesiones no relacionadas con software que crecen más rápido son gestión, ventas y legal.
Trabajo
Desde octubre de 2025 hasta abril de 2026, la composición del trabajo realizado con Claude Code cambió notablemente. La disminución más marcada fue en sesiones para reparar código dañado, que bajó del 33% al 19% (ver figura 4). En su lugar, aumentaron las sesiones relacionadas con el trabajo en código. La proporción de operaciones de software subió del 14% al 21%. La escritura y análisis de datos casi se duplicaron, pasando de aproximadamente 10% a 20%.
El valor de las tareas también aumentó. Estimamos el valor económico de cada sesión comparándolo con tarifas en el mercado freelance, ajustando con datos reales de ofertas laborales. Según este método, el valor promedio de las sesiones subió un 27% entre octubre y abril. Este aumento se vio en diversos tipos de trabajo: construcción, operación y reparación, con incrementos del 43%, 34% y 32%, respectivamente. Estas estimaciones son aproximadas, y se usan principalmente para comparar tendencias temporales, no como valores en dólares precisos. Más detalles sobre cómo se construye esta estimación en el apéndice.
> Figura 4: Cambios en la composición y valor del trabajo con Claude Code entre octubre de 2025 y abril de 2026. La figura muestra la proporción de diferentes modos de trabajo en sesiones durante siete meses. La reparación de código dañado bajó del 33% al 19%, mientras que operaciones, análisis y documentación aumentaron.
El éxito depende de lo que aporta el usuario
Estimar el valor de las tareas es una forma de entender cómo Claude Code ayuda en el trabajo. Otra es observar cuántas sesiones son exitosas y qué características se asocian con el éxito. En todos los indicadores de éxito, aparece un patrón claro: cuanto mayor sea el nivel profesional del usuario, mayor será la probabilidad de éxito en la sesión. La mayor parte de la mejora se da en la parte baja del nivel, es decir, de principiante a intermedio, más que de intermedio a experto.
Antes de analizar las características de sesiones exitosas, debemos definir con precisión qué consideramos éxito. No podemos observar los resultados en el mundo real ni preguntar directamente a los usuarios si lograron lo que querían. Por eso, usamos dos métodos complementarios basados en los registros de sesión. El primero es una clasificación de "éxito" que, tras leer toda la sesión, determina si el usuario alcanzó su objetivo original, con opciones: éxito, éxito parcial, fracaso, sin objetivo claro. Luego, dos clasificadores complementarios evalúan la evidencia de éxito, para confirmar "éxito verificado". Este clasificador busca pruebas verificables, como commits en git, pruebas pasadas, o confirmación explícita del usuario. Asigna una puntuación de 1 a 5, de "sin señal" a "múltiples señales fuertes". Un clasificador paralelo evalúa evidencia de fallo, como errores, fallos en pruebas, intentos repetidos, o que el usuario rechace la salida. El éxito verificado requiere que ambas condiciones se cumplan: que la sesión sea clasificada como exitosa y que exista al menos una señal fuerte de éxito. La mayoría de las sesiones sin señales verificables de éxito se excluyen, representando aproximadamente el 7.7% del total.
Recompensas por nivel profesional
Entonces, ¿qué sesiones tienen más probabilidades de éxito? Los resultados muestran que la puntuación de nivel profesional tiene un impacto muy fuerte en el éxito de la sesión.
Algunos podrían pensar que el nivel profesional no es la causa real, sino que los expertos simplemente enfrentan tareas diferentes o tienen otras características. En esta sección, respondemos parcialmente a esa preocupación comparando sesiones del mismo tipo de trabajo, con valores similares, en el mismo mes, con temas similares, y de usuarios de la misma categoría profesional, para ver cómo influye el nivel profesional en los resultados.
> Tabla 2: Definiciones de éxito y fracaso derivadas del clasificador. Ejemplos de conversaciones reales del conjunto público SWE-chat, modificadas y resumidas, etiquetadas por nuestro clasificador.
En todos los indicadores, cuanto mayor sea el nivel profesional del usuario en la sesión, mayor será la probabilidad de éxito. Las sesiones calificadas como "principiante" alcanzan un éxito verificado en un 15%, y un éxito parcial en un 77%. Las de nivel intermedio o superior tienen tasas de éxito verificado entre 28% y 33%, y de éxito parcial entre 91% y 92% (ver figura 5).
En cada indicador, la mayor parte de la mejora proviene de subir de principiante a intermedio; la diferencia entre intermedio y experto es menor. Los detalles del análisis de regresión detrás de la figura 5 están en el apéndice.
> Figura 5: Relación entre nivel profesional y resultados de la sesión. La figura muestra, en cinco niveles de principiante a experto, la proporción de sesiones que terminan en éxito o fracaso, según la clasificación. La gráfica incluye todas las sesiones, y también solo las que enfrentaron problemas (fallo de señal > 3), mostrando la proporción final de éxito y fracaso en esas. Cada punto es una proporción ajustada. La comparación se hace solo entre sesiones con el mismo modo de trabajo, valor de tarea, mes, tema, y tipo de usuario (relacionado con software). Los intervalos de confianza de la media están representados por líneas de "bigotes", que en la mayoría de los casos no son visibles por ser muy pequeños. Se excluyen sesiones sin señal de éxito verificable.
Incluso en sesiones con dificultades, se observa una tendencia similar. Cuando hay evidencia verificable de fallo, consideramos que la sesión "tuvo problemas". Esto puede incluir errores, fallos en pruebas, múltiples intentos, o que el usuario exprese frustración. En esas sesiones, tras controlar las variables, la proporción de éxito verificado sube del 4% en principiante al 15% en experto (ver figura 5). Con indicadores de éxito más laxos, encontramos que al menos el 60% de los principiantes logran al menos un éxito parcial, frente a más del 80% en usuarios intermedios y expertos.
También analizamos la relación inversa: cómo el nivel profesional afecta las distintas métricas de fallo. Es importante notar que, en este análisis, las sesiones consideradas fallidas son aquellas que no alcanzaron ni siquiera un éxito parcial. Si una sesión con problemas no genera código y se abandona, la llamamos "descartada". Entre los usuarios considerados principiantes, el 19% de las sesiones terminan así; en otros grupos, entre el 5% y el 7%. Esto indica que los usuarios con menos experiencia, cuando enfrentan dificultades, abandonan con mayor facilidad. La competencia en el dominio parece ser una parte importante del valor del trabajo, ya que ayuda a guiar mejor a la IA en la dirección correcta.
La profesión puede ser menos importante que el nivel profesional
Usuarios en profesiones relacionadas con software tienen una tasa de éxito verificada en torno al 30%, mientras que otros usuarios alcanzan aproximadamente el 26%. En sesiones que generan código, estas cifras son 34% y 29%, respectivamente (ver figura 6). Con definiciones más laxas, la diferencia entre profesiones relacionadas con software y otras se reduce aún más. En esas sesiones, la proporción de éxito parcial es del 89% y 88%. La diferencia de cinco puntos porcentuales no es significativa y no ha cambiado en siete meses, aunque ambas tasas aumentaron. En las diez profesiones más grandes en nuestro conjunto de datos, ninguna difiere en éxito verificado en más de siete puntos porcentuales respecto a ingenieros de software. La gestión tiene la tasa más alta, ligeramente superior a la de profesiones de software. Esto puede reflejar que las habilidades de gestión se transfieren bien a tareas de dirección de agentes, o que la medición depende en parte de la confirmación explícita del usuario, que los gestores tienden a dar más fácilmente.
> Figura 6: Tasas de éxito y fracaso en sesiones de codificación, según profesión inferida. La figura muestra, en sesiones con al menos una línea de código añadida o modificada, la proporción de éxito y fracaso según la profesión inferida, en los diez grupos más grandes. Cada grupo está muy cercano en éxito a los usuarios de "profesiones relacionadas con la computación y matemáticas" (SOC). Las líneas de error representan intervalos de confianza del 95% calculados con diferentes cuentas.
Perspectivas
Los resultados de este informe bosquejan un escenario en formación: la programación con agentes amplifica ciertas habilidades y conocimientos, mientras reemplaza otras. En sesiones que generan código, las tasas de éxito de diferentes profesiones se parecen mucho a las de profesionales de software. Parece que la programación de agentes hace que la experiencia en programación sea menos relevante para completar tareas de codificación con éxito.
Al mismo tiempo, las sesiones exitosas tienden a mostrar mayor conocimiento del dominio. Las sesiones calificadas como de nivel experto tienen más del doble de éxito verificado que las de principiante. Cuando hay problemas, los principiantes abandonan en mayor proporción. La forma de colaboración es clara: los expertos en dominio pueden guiar a Claude con instrucciones precisas para que realice más trabajo. Por lo tanto, la capacidad de llevar a Claude al éxito depende más del dominio que de la habilidad de programar. Quien tenga un conocimiento profundo en un área puede realizar trabajos que antes no podía, con la ayuda de la IA. Quien carece de esa comprensión, aunque use la misma herramienta, obtiene menos resultados. La mayor parte del beneficio proviene de la competencia, no de la maestría. Entender operativamente un dominio ya proporciona la mayor parte del valor; la especialización profunda solo añade ventajas marginales.
Estos hallazgos son preliminares. Como en la mayoría de las investigaciones, no podemos medir resultados en el mundo real, como si el código generado se usa o se descarta, o si produce resultados económicos. Además, este informe excluye el uso no interactivo, que representa una parte importante de la actividad total. Desarrollar un marco para medir ese uso será un trabajo futuro. Todas las clasificaciones en este informe dependen de la lectura del modelo sobre los registros de sesión. En el apéndice mostramos que el clasificador y los datos de telemetría se mantienen en línea en la mayoría de los casos, y coinciden con evaluaciones de referencia. Sin embargo, en escenarios a gran escala, validar estos clasificadores sigue siendo difícil; las sesiones de Claude Code también son complejas y largas, dificultando la anotación manual como referencia definitiva.
A medida que evolucionan los modelos, los usuarios y la división del trabajo, las gráficas de este informe también cambiarán. Esperamos que estos indicadores nos ayuden a seguir los cambios importantes: si en el futuro el nivel profesional deja de dar ventajas, será señal de que los modelos están tomando decisiones clave, y los beneficios se extenderán a más personas. Si la proporción de usuarios fuera del ámbito del software que logran completar sesiones con éxito sigue creciendo, podría significar que la producción de software se vuelve parte del trabajo cotidiano en todos los campos, y no solo en profesiones específicas. Estos cambios modificarán quiénes se benefician de la programación con agentes y en qué medida, afectando las habilidades más valoradas en el mercado laboral.
[Enlace al original]
Haz clic para conocer las vacantes en BlockBeats
Únete a la comunidad oficial de BlockBeats:
Telegram: https://t.me/theblockbeats
Telegram grupo: https://t.me/BlockBeats_App
Twitter oficial: https://twitter.com/BlockBeatsAsia