Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
CFD
Derivados de CFD de acciones estadounidenses
Acciones EE. UU.
Accede a acciones y ETF estadounidenses reales
Acciones HK
Opera con acciones de calidad cotizadas en Hong Kong
Futuros de acciones
Alto apalancamiento, trading 24/7
Acciones tokenizadas
Respaldado por acciones reales
IPO Access
Accede al acceso completo a las OPV de acciones globales
GUSD
Acuña GUSD para obtener rendimientos de RWA del Tesoro
Actividades de acciones
Opera con acciones populares y desbloquea grandes airdrops
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
IPO Access
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
USD1 12% TAE
Sin bloqueo, opera y retira
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
¿Quién es el que mejor sabe usar Claude Code? La respuesta quizás no sea programador.
Autor: Anthropoic; Traducción: Peggy, Blockchain Motion
Este informe se basa en aproximadamente 400,000 sesiones de Claude Code, discutiendo cómo las herramientas de programación con IA están cambiando la relación entre humanos y código.
El hallazgo central del artículo es: en la programación con agentes inteligentes, los humanos deciden principalmente "qué hacer", mientras que Claude se encarga de "cómo hacerlo". Los usuarios asumen la mayor parte de las decisiones de planificación, y Claude realiza la mayor parte del trabajo de ejecución. Es decir, la IA está tomando el control de etapas como escribir código, modificar archivos, ejecutar comandos y depurar, pero la definición de objetivos y la evaluación de resultados siguen dependiendo de las personas.
Más importante aún, el efecto de usar Claude Code no depende solo de si el usuario es programador. El informe muestra que, en tareas de generación de código, usuarios de profesiones no técnicas como leyes, finanzas, gestión e investigación científica tienen tasas de éxito casi iguales a las de ingenieros de software. Lo que realmente influye en el resultado es si el usuario comprende el problema que quiere resolver.
Esto significa que la programación con IA reduce la barrera de implementación, no la de juicio. En el futuro, las personas que entienden el negocio, el escenario, y pueden expresar claramente sus necesidades y evaluar resultados, podrían usar mejor la IA que quienes solo saben programar. La IA no reemplazará automáticamente el conocimiento del dominio, sino que potenciará su valor.
A continuación, el texto original:
Hallazgos clave
Basándonos en investigaciones previas, proponemos un marco para estudiar la programación interactiva con agentes inteligentes. Este marco se fundamenta en un análisis de privacidad de aproximadamente 400,000 sesiones de Claude Code entre octubre de 2025 y abril de 2026, evaluando la composición de tareas, la colaboración entre humanos y IA, y las tasas de éxito.
En una sesión típica, el humano se encarga de la mayor parte de la planificación, es decir, decide "qué hacer"; Claude se ocupa de la mayor parte de la ejecución, es decir, cómo hacerlo. Cuanto más experto sea el usuario en un campo, mayor será la cantidad de trabajo que Claude realiza en respuesta a sus instrucciones. En tareas de codificación, la tasa de éxito promedio —es decir, si lograron hacer lo que originalmente querían— en los principales grupos profesionales casi iguala a la de ingenieros de software, con evidencia verificable mediante pruebas, envío de código, etc.
Cuanto mayor sea la competencia del usuario en su campo, más probable será que la sesión termine con éxito. Sin embargo, la diferencia entre usuarios intermedios y expertos no es grande. En los siete meses que observamos, la proporción de sesiones para depuración casi se redujo a la mitad, y el uso se orientó hacia formas más end-to-end: desplegar y ejecutar código, analizar datos, y redactar documentación no relacionada con código.
En estos siete meses, el valor de las tareas típicas aumentó en casi todos los tipos de trabajo. Estimamos el valor económico de cada sesión comparándolo con tarifas en el mercado freelance, ajustando con datos reales de ofertas de empleo. Según este método, el valor promedio de las sesiones aumentó un 27% entre octubre y abril. Este incremento se vio en diversos tipos de tareas: construir, operar y reparar aumentaron aproximadamente un 43%, 34% y 32%, respectivamente. Estas estimaciones son aproximadas, y se usan principalmente para observar tendencias en el tiempo, no como valores en dólares directos. Para más detalles, ver apéndice.
Introducción
La programación con agentes inteligentes está emergiendo rápidamente. Desde finales de 2025, la proporción de proyectos en GitHub que involucran actividades con agentes de codificación se ha duplicado, y los usuarios de Claude Code usan la herramienta en promedio 20 horas por semana. ¿Pueden personas sin experiencia formal en programación dirigir con éxito un agente para realizar tareas técnicas complejas? ¿Cómo afectará esta rápida adopción y mejora de capacidades a un trabajo más amplio basado en conocimientos? Aún no tenemos respuestas definitivas, pero podemos detectar algunas señales tempranas en los datos de uso de Claude Code.
Este informe se basa en un análisis de privacidad de aproximadamente 235,000 usuarios y 400,000 sesiones interactivas entre octubre de 2025 y abril de 2026, proporcionando evidencia sobre el uso real de Claude Code. Continúa nuestra investigación previa sobre los indicadores de autonomía en sesiones de Claude Code y cómo estos cambian la dinámica interna en Anthropic. Presentamos un marco para describir el uso de asistentes de programación con IA interactiva: qué hacen las personas, quién hace qué, y si el trabajo tiene éxito. Nos centramos en el uso de Claude Code a través de interfaces de línea de comandos (CLI), Claude.ai o la aplicación de escritorio Claude Code. Al rastrear cómo cambian los patrones de uso con la mejora del modelo, podemos entender mejor el impacto en programadores profesionales y en el mercado laboral de trabajadores del conocimiento.
Lo que sucede en Claude Code quizás predice el futuro del trabajo basado en conocimientos: los agentes se integrarán cada vez más en tareas no relacionadas con codificación. Encontramos que Claude está manejando tareas más complejas y valiosas. Al mismo tiempo, la división del trabajo en programación con agentes sigue siendo clara: los humanos deciden qué construir, y los agentes deciden cómo construirlo.
También encontramos evidencia de que el verdadero amplificador de la efectividad de las herramientas es el conocimiento especializado en el dominio, no la habilidad en programación. En particular, los expertos en un campo tienen más éxito y se recuperan mejor de errores y malentendidos. Sin embargo, la diferencia entre usuarios intermedios y expertos no es grande. Esto indica que, con suficiente dominio en un área, casi cualquier persona puede usar estas herramientas de manera efectiva, como un experto profundo.
Estos hallazgos nos permiten observar posibles cambios en el mercado laboral. Nuestros datos muestran que el éxito depende de si la persona comprende el problema que quiere resolver, no de si ha sido entrenada en programación. Si estos patrones se mantienen en toda la economía, significa que, aunque la programación con agentes pueda absorber algunos trabajos orientados a la implementación, también recompensa a quienes entienden realmente los problemas que enfrentan. Programar agentes no reemplaza el conocimiento del dominio; por el contrario, cuanto más comprenda el trabajador el problema, más trabajo de calidad podrá realizar la IA.
División del trabajo
Qué hacen las personas con Claude Code
Para entender quién realiza estas tareas, clasificamos cada sesión en uno de nueve modos de trabajo que mejor describen su objetivo. Cuatro de estos modos involucran directamente escribir o mantener código: construir algo nuevo, reparar algo dañado, probar código, y coordinar otros agentes o pipelines automáticos. Otro grupo se relaciona con operar software: desplegar, configurar, ejecutar pipelines y monitorear sistemas. Dos más se centran en entender "qué hacer": comprender cómo funciona un sistema existente y planificar cambios antes de actuar. Los últimos dos no están relacionados con código, o solo lo usan como apoyo: analizar datos y comunicar mediante presentaciones y otros documentos basados en texto.
Aproximadamente el 56% de las sesiones consisten en escribir código (25%), reparar código (26%), o probar y coordinar código (5%). Operar software representa el 17%, planificar o explorar el 14%, y analizar o redactar textos el 13% (ver figura 1).
> Figura 1: Los nueve modos de trabajo. Cada sesión interactiva se clasifica en el modo que mejor describe su objetivo.
Primero, hacemos que el modelo lea el registro de la sesión y lo clasifique; luego, usamos nuestra herramienta de análisis de privacidad para cruzar los resultados con los datos de telemetría automática, incluyendo si se añadieron o eliminaron líneas de código. La alta coherencia entre ambas fuentes se confirma: en sesiones clasificadas como creación o modificación de código, más del 90% también muestran cambios en telemetría. Ver apéndice para detalles.
Quién toma las decisiones
¿Qué tan autónomo es Claude Code? La evaluación de capacidades muestra que su potencial ya es alto y sigue creciendo. Por ejemplo, en benchmarks como METR, los modelos de vanguardia ahora pueden completar tareas de software que antes requerían horas humanas, y superar obstáculos por sí mismos. Pero, ¿qué pasa en la práctica? Aquí, nos centramos en cuánto guían humanos y Claude en sesiones reales.
Abordamos esto desde dos ángulos. Primero, cuánto delegan las decisiones a Claude; segundo, cuántas acciones asignan a Claude. Para entender la división de decisiones, construimos un clasificador de atribución de decisiones que respeta la privacidad. Este clasificador enumera todas las decisiones relevantes en una sesión y las divide en decisiones de planificación (qué hacer, cómo hacerlo, cuándo considerar que está listo) y decisiones de ejecución (qué archivos modificar, qué código escribir, en qué lenguaje, qué comandos ejecutar). Luego, atribuye cada decisión a Claude o al usuario, y genera dos porcentajes: cuánto de las decisiones de planificación y de ejecución asume el usuario.
En promedio, los humanos toman aproximadamente el 70% de las decisiones de planificación, pero solo el 20% de las decisiones de ejecución (ver figura 2). En la práctica, la programación con agentes muestra una división clara: los humanos deciden qué construir, los agentes cómo hacerlo.
Para entender cuánto delegan en acciones, no analizamos el contenido, sino la estructura de la sesión. Las sesiones de Claude Code consisten en intercambios entre usuario y Claude: el usuario envía instrucciones, Claude actúa; luego, el usuario envía otra instrucción, y así sucesivamente. En sesiones típicas, hay unas cuatro rondas. En nuestros datos de octubre a abril, cada instrucción del usuario suele activar unos 10 movimientos de Claude, a veces más de 100. En cada ronda, Claude lee archivos, edita código, ejecuta comandos, y en promedio produce unas 2,400 palabras.
Cuánto trabajo realiza Claude entre dos revisiones del usuario depende en gran medida de quién toma las decisiones. Cuando el usuario mantiene el control de la ejecución, haciendo más del 80% de las decisiones de ejecución, Claude realiza menos acciones por ronda, unas 8. Pero cuando Claude asume el control de la planificación, haciendo más del 80% de esas decisiones, realiza hasta unas 16 acciones.
> Figura 2: Proporción de decisiones de planificación y ejecución atribuidas a Claude. La figura muestra, en diferentes sesiones, qué porcentaje de decisiones de planificación (qué hacer) y de ejecución (cómo hacerlo) son atribuidas a Claude en lugar del usuario. En sesiones típicas, el usuario toma aproximadamente el 70% de las decisiones de planificación, y Claude realiza alrededor del 80% de las decisiones de ejecución.
Nivel profesional
Según cada sesión, Claude evalúa el nivel de experiencia aparente del usuario en la tarea en una escala de cinco niveles, desde principiante hasta experto. El clasificador de nivel profesional se basa en tres señales: qué tan precisas son las instrucciones del usuario, qué pide verificar Claude, y si el usuario corrige más a Claude o viceversa. Es importante notar que este nivel no es lo mismo que el cargo o la habilidad general, sino que es específico para cada tarea. Por ejemplo, un ingeniero senior que pregunta por Rust por primera vez puede considerarse principiante en esa tarea; un contador que nunca usó Python, pero puede decirle a Claude qué reglas de conciliación deben aplicarse en un script, y detectar errores en el cierre mensual, sería un experto en esa tarea.
La tabla a continuación muestra cómo definimos los niveles en el clasificador, junto con ejemplos de solicitudes del conjunto de datos público SWE-chat. Las sesiones clasificadas como "principiante" contienen instrucciones genéricas sin conocimientos específicos del dominio; las de "experto" muestran un profundo entendimiento del código y del entorno técnico.
> Tabla 1: Clasificador de nivel profesional. Los ejemplos muestran sesiones reales, modificadas, anonimizadas y comprimidas, y son etiquetadas por nuestro clasificador. Muchos ejemplos provienen del conjunto de datos público SWE-chat.
Medimos cómo el nivel profesional se relaciona con la cantidad de acciones y texto generado por Claude por cada instrucción. En sesiones típicas de principiante, cada instrucción activa unos 5 movimientos de Claude y produce unas 600 palabras; en sesiones de experto, la cadena de acciones es más larga, aproximadamente 12 movimientos, y la salida alcanza unas 3,200 palabras, cinco veces más (ver figura 3). La diferencia entre principiante y experto aparece en todos los tipos de trabajo y en todos los rangos de valor de tarea.
Estas métricas complementan nuestra investigación previa sobre la autonomía de Claude Code. Antes, rastreábamos cuánto tiempo operaba el agente y con qué frecuencia los usuarios aprobaban automáticamente sus acciones. Ahora, nuestro indicador de atribución de decisiones captura quién toma decisiones sustantivas en toda la sesión, y la cantidad de acciones y salida por instrucción mide cuánto puede actuar de forma autónoma en respuesta a las órdenes humanas.
> Figura 3: Con usuarios más profesionales, Claude realiza más trabajo por instrucción. Cuanto mayor sea el nivel profesional, mayor será el número de acciones (barras a la izquierda) y la cantidad de texto generado (barras a la derecha) por cada instrucción. La caja muestra el rango intercuartílico, la línea mediana, y los puntos blancos la media geométrica. Las tendencias son estadísticamente significativas (p < 0.001), y cada paso entre niveles profesionales también lo es. Tras controlar por modo de trabajo, valor de tarea, mes, profesión y serie de modelos, y ajustar por agrupamiento de usuarios, la tendencia sigue siendo significativa: cada nivel adicional aumenta en un 9% las acciones y en un 13% la salida.
¿Quién usa Claude Code y para qué?
Usuarios
Para entender quién realiza estas tareas, inferimos la profesión de cada usuario a partir de las sesiones, y la mapeamos a una de las 23 categorías principales del sistema SOC del Departamento de Trabajo de EE. UU. El clasificador solo se basa en señales como: contexto cargado al inicio de la sesión, nombres y estructura de archivos, referencias a documentos o productos (leyes, datos clínicos, informes financieros, materiales de cursos, etc.), y vocabulario empleado. Se nos instruye explícitamente a no considerar "escribir código" como evidencia de que el usuario sea programador. Solo si hay señales claras de que la tarea involucra trabajo de software o datos, se clasifica en la categoría de "profesiones relacionadas con computación y matemáticas". Por ejemplo, si un abogado crea un script para verificar automáticamente cláusulas en contratos, aunque la sesión sea principalmente en programación, se clasifica como profesional legal. Si no hay señales sobre la profesión del usuario, la sesión no se clasifica.
Podemos inferir la profesión en aproximadamente el 70% de las sesiones. Entre estas, la categoría más grande es "profesiones relacionadas con computación y matemáticas", lo cual no sorprende, pues abarca la mayoría del trabajo en software. Le siguen áreas como negocios y finanzas, arte y medios, gestión, y ciencias de la vida, física y sociales. En nuestra muestra, las categorías que más crecen fuera del software son gestión, ventas y leyes.
Trabajo
Desde octubre de 2025 hasta abril de 2026, la composición del trabajo realizado con Claude Code cambió notablemente. La mayor disminución fue en sesiones para reparar código dañado, que bajó del 33% al 19% (ver figura 4). En su lugar, aumentaron las tareas relacionadas con el código. La proporción de operaciones de software subió del 14% al 21%. La escritura y análisis de datos casi se duplicaron, pasando de aproximadamente 10% a 20%.
El valor de las tareas también aumentó. Estimamos el valor económico de cada sesión comparándolo con tarifas en el mercado freelance, ajustando con datos reales de ofertas laborales. Según esta métrica, el valor promedio de las sesiones creció un 27% entre octubre y abril. Este aumento se vio en varias categorías: construir, operar y reparar tareas aumentaron aproximadamente un 43%, 34% y 32%, respectivamente. Estas estimaciones son aproximadas y se usan principalmente para observar tendencias, no como valores en dólares exactos. Para más detalles, consultar apéndice.
> Figura 4: Cambios en la composición y valor del trabajo con Claude Code entre octubre de 2025 y abril de 2026. La figura muestra la proporción de diferentes modos de trabajo en sesiones durante siete meses. La reparación de código dañado bajó del 33% al 19%, mientras que operaciones, análisis y documentación aumentaron.
El éxito depende de lo que aporta el usuario
Medir el valor de las tareas ayuda a entender cómo Claude Code ayuda a completar trabajos. Otra perspectiva es cuántas sesiones tienen éxito y qué características se relacionan con el éxito. En todos los indicadores de éxito, aparece un patrón claro: cuanto mayor sea el nivel profesional del usuario, mayor será la probabilidad de éxito. La mayor parte de la mejora se da en los niveles bajos, es decir, la diferencia entre principiante y intermedio es mayor que entre intermedio y experto.
Antes de analizar las características de sesiones exitosas, debemos definir con precisión qué consideramos éxito. No podemos observar los resultados en el mundo real ni preguntar directamente si lograron lo que querían. Por eso, usamos dos métodos complementarios basados en los registros de la sesión. El primero, "determinación de éxito", lo realiza un clasificador que lee toda la sesión y decide si el usuario alcanzó su objetivo, con categorías: éxito, parcialmente exitoso, fracaso, sin objetivo claro. Luego, otros clasificadores evalúan la evidencia de éxito, buscando pruebas verificables como commits, pull requests, pruebas pasadas, y confirmación explícita del usuario. Asignan una puntuación de 1 a 5, de "sin señal" a "múltiples señales fuertes". Un éxito verificado requiere que ambas condiciones se cumplan: la sesión sea considerada exitosa y que exista al menos una señal verificable. Las sesiones sin señales verificables de éxito se excluyen, y representan aproximadamente el 7.7% del total.
Recompensa por nivel profesional
Entonces, ¿qué sesiones tienen más éxito? Los resultados muestran que la puntuación de nivel profesional tiene un gran impacto en el éxito.
Algunos podrían pensar que el nivel profesional no es la causa real, sino que los expertos simplemente enfrentan tareas diferentes o tienen otras ventajas. Para responder, comparamos sesiones del mismo tipo de trabajo, con el mismo valor estimado, en el mismo mes, con temas similares, y del mismo grupo profesional. Esto ayuda a aislar el efecto del nivel profesional.
> Tabla 2: Definiciones de éxito y fracaso derivadas del clasificador. Ejemplo de sesiones reales del conjunto público SWE-chat, modificadas y anotadas por nuestro clasificador.
En todos los indicadores, las sesiones con mayor nivel profesional tienen más éxito. Las sesiones calificadas como principiante alcanzan éxito verificado en un 15%, y al menos parcial en un 77%. Las de nivel intermedio o superior tienen tasas de éxito verificadas entre 28% y 33%, y parciales entre 91% y 92% (ver figura 5).
En todos los indicadores, la mayor parte de la mejora proviene de pasar de principiante a intermedio; la diferencia entre intermedio y experto es menor. Los detalles del análisis estadístico se encuentran en el apéndice.
> Figura 5: Relación entre nivel profesional y resultados de la sesión. La figura muestra, en cinco niveles de experiencia, la proporción de sesiones que terminan en éxito o fracaso, según diferentes definiciones. La izquierda incluye todas las sesiones; las otras dos solo las que enfrentaron problemas (fallos en señales de error mayores a 3), y muestran qué porcentaje alcanzaron diferentes niveles de éxito. Cada punto es una proporción ajustada. La comparación se hace solo entre sesiones con el mismo modo de trabajo, valor de tarea, mes, tema, y grupo profesional (por ejemplo, relacionados con software). Los intervalos de confianza se muestran con líneas de error. Se excluyen sesiones sin señales verificables de éxito.
Incluso en sesiones desafiantes, se observa una tendencia similar: cuando hay evidencia verificable de fallo, consideramos que la sesión "tuvo problemas". Esto puede incluir errores, fallos en pruebas, múltiples intentos, o que el usuario exprese frustración. En sesiones con problemas, la tasa de éxito verificado aumenta del 4% en principiantes al 15% en expertos (ver figura 5). Con indicadores más laxos, la proporción de al menos parcial éxito en principiantes es del 60%, y en intermedios y expertos, del 80-81%.
También analizamos la relación inversa: cómo el nivel profesional afecta las fallas. En esta, las sesiones consideradas fallidas son aquellas que no lograron ni siquiera un éxito parcial, y en las que no se escribió código, se llaman "descartadas". En sesiones de usuarios con poca experiencia, el 19% termina así; en otros grupos, entre 5% y 7%. Esto indica que los menos experimentados abandonan más fácilmente cuando enfrentan dificultades. La capacidad de guiar a la IA hacia el éxito tiene un valor importante.
La profesión puede ser menos relevante que el nivel profesional
Usuarios en profesiones relacionadas con software tienen una tasa de éxito verificado de aproximadamente 30%, frente a 26% en otros. En sesiones que generan código (al menos añaden o modifican una línea), estas cifras son 34% y 29%. Con definiciones más laxas, la diferencia se reduce aún más. En esas sesiones, el porcentaje de éxito parcial es 89% y 88%, respectivamente. La diferencia de cinco puntos porcentuales no cambia mucho en siete meses, y ambos grupos mejoran. En las diez categorías más grandes, la diferencia con ingenieros de software en éxito no supera los siete puntos porcentuales. La categoría de gestión tiene la tasa más alta, ligeramente superior a la de informática y matemáticas. Esto puede reflejar que las habilidades de gestión se transfieren a dirigir agentes, o que la medición depende de la confirmación explícita del usuario, que los gestores tienden a expresar más.
> Figura 6: Éxito y fracaso en sesiones de codificación según profesión inferida. La figura muestra, en las diez categorías principales, la proporción de sesiones que alcanzan éxito o fracaso, usando definiciones estrictas (éxito verificado y éxito) en sesiones con al menos una línea de código añadida o modificada. La diferencia entre cada grupo y los usuarios de informática/matemáticas (categoría SOC) no supera los siete puntos porcentuales. Las líneas de error representan intervalos de confianza del 95%.
Perspectivas
Los resultados del informe dibujan un escenario en formación: la programación con agentes amplifica ciertos conocimientos y habilidades, y reemplaza otras. En sesiones de generación de código, las tasas de éxito de diferentes profesiones son similares a las de profesionales en informática, sugiriendo que tener experiencia en programación se vuelve menos relevante para completar tareas de codificación con IA.
Al mismo tiempo, las sesiones exitosas muestran mayor dominio del conocimiento del dominio. Las sesiones de expertos tienen más éxito verificado que las de principiantes, en más del doble. Cuando hay problemas, los principiantes abandonan mucho más que los expertos. La forma de colaborar ayuda a entender esto: los expertos en un campo pueden guiar a Claude con cada instrucción para que realice más trabajo. Por lo tanto, la capacidad de llevar a Claude al éxito depende más del conocimiento del dominio que de la habilidad para escribir código. Quien tenga un buen entendimiento del problema puede lograr trabajos que antes parecían imposibles. Quienes carecen de esa comprensión, aunque usen la misma herramienta, obtendrán menos. La mayor parte del beneficio proviene de la competencia, no de la maestría. Entender operativamente un dominio ya proporciona la mayor parte del valor; la especialización profunda solo añade ventajas marginales.
Estos hallazgos son preliminares. Como en la mayoría de las investigaciones, no podemos medir resultados en el mundo real, como si el código generado se usa o se descarta, o si produce valor económico. Además, excluimos el uso no interactivo, que representa una parte importante del total. Desarrollar un marco para medir ese uso será un trabajo futuro. También, todas las clasificaciones dependen de la lectura del modelo sobre los registros de sesión. En el apéndice mostramos que el clasificador y los datos de telemetría se mantienen coherentes en la mayoría de los casos, pero en escenarios a gran escala, validar el clasificador sigue siendo difícil; las sesiones de Claude Code pueden ser largas y complejas, dificultando la anotación manual como referencia definitiva.
A medida que cambian los modelos, los usuarios y la división del trabajo, también cambiarán las gráficas aquí presentadas. Esperamos que estos indicadores nos ayuden a seguir los cambios importantes: si en el futuro el retorno del nivel profesional empieza a disminuir, será señal de que los modelos ya ofrecen decisiones clave, y que los beneficios se extienden más allá de los expertos. Si más usuarios fuera del campo del software logran completar sesiones de codificación, podría significar que la producción de software se vuelve parte del trabajo cotidiano en muchas áreas, y no solo de una profesión. Estos cambios afectarán quiénes se benefician de la programación con IA y en qué medida, influyendo en las habilidades más valoradas en el mercado laboral.