Cómo hacer que los programas de IA sean más lentos pero más precisos: revisión de PR con múltiples modelos, para reducir al mínimo la probabilidad de errores

El exingeniero senior de Microsoft Nolan Lawson utiliza los modelos Claude, Codex y Cursor Bugbot para revisar PRs de manera sincronizada, verificando cruzadamente para reducir la tasa de falsos positivos a casi cero.
(Resumen previo: ¡Claude Code anuncia un aumento del 50% en el límite semanal de tokens! Para dos meses, Anthropic compite por la ecosistema de desarrolladores)
(Información adicional: Stripe activa pruebas de pago automáticas con AI Agent: soportando pagos en USDC en la cadena Base a través de x402)

Índice de este artículo

Alternar

  • Los LLM son innatamente buenos para encontrar bugs
  • La lógica de verificación cruzada en revisiones con múltiples modelos
  • La velocidad disminuye, la calidad aumenta

Sabemos que la ventaja del codificado con IA es “generar rápidamente una gran cantidad de código”, pero la precisión aún es discutible. Nolan Lawson, exingeniero senior de Microsoft y Salesforce, documentó en su blog un nuevo flujo de trabajo: usa múltiples modelos de lenguaje grande para revisar de forma sincronizada cada pull request (solicitud de integración de código, en pocas palabras, cada vez que se envía nuevo código al proyecto), con el objetivo de verificar cruzadamente y detectar bugs reales, en lugar de simplemente generar más código rápidamente.

Este proceso no aumenta la cantidad de código producido, pero sí mejora claramente su calidad.

Los LLM son innatamente buenos para encontrar bugs

El plan Glasswing de Anthropic, lanzado este año (una actualización pública del sistema Mythos), proporciona datos directos para esta lógica.

Este sistema permite a los agentes LLM escanear a gran escala código abierto real. Como resultado: tras escanear más de 1,000 proyectos open source, el sistema estima haber detectado 6,202 vulnerabilidades de alta gravedad o críticas, en un total de 23,019 vulnerabilidades (incluyendo las de menor gravedad). De las 1,752 vulnerabilidades verificadas individualmente por empresas de seguridad independientes, el 90.6% fueron confirmadas como problemas reales, y el 62.4% corresponden a niveles de alta gravedad o críticos.

Estas cifras indican un cambio fundamental: encontrar bugs ya no es la principal limitación, sino la verificación y reparación.

El informe de Anthropic afirma claramente: “El progreso en seguridad de software, que antes dependía de la velocidad para encontrar vulnerabilidades, ahora está limitado por la velocidad de verificar, revelar y reparar.” En otras palabras, la IA ha desplazado el cuello de botella del “descubrimiento” al “manejo”.

La lógica de verificación cruzada en revisiones con múltiples modelos

La estrategia central de Lawson es hacer que varios modelos de diferentes proveedores revisen simultáneamente un PR, en lugar de depender de un solo modelo.

Su conjunto de herramientas incluye Claude code, Codex de OpenAI y Cursor Bugbot, que revisan de forma completamente independiente el mismo pull request, y luego consolidan todos los resultados, ordenados por niveles de severidad: crítico, alto, medio y bajo.

Una característica clave de este diseño de verificación cruzada con múltiples modelos es que: un solo modelo puede generar falsos positivos fácilmente, pero si varios modelos, entrenados con datos y arquitecturas diferentes, señalan el mismo problema, la tasa de falsos positivos se reduce drásticamente y la cobertura aumenta. Según Lawson: “La tasa de falsos positivos se acerca a cero, y la cobertura de bugs detectados es muy alta.”

Su proceso de decisión es bastante claro. Todos los problemas críticos y altos deben ser corregidos primero; los problemas medianos y bajos se evalúan individualmente en función de la relación entre “costo de reparación” y “impacto real”, y si no vale la pena, se omiten para no desperdiciar recursos de desarrollo; si un PR tiene demasiados problemas críticos, se abandona y se vuelve a empezar, en lugar de seguir parcheando sobre problemas fundamentales.

El núcleo de la técnica de revisión de PR de Lawson proviene de un estudio que analiza el rendimiento de múltiples modelos en revisiones de código: cuanto más diversos sean los modelos, más precisa será la evaluación final, basado en la idea de “sesgo múltiple”, donde diferentes modelos, entrenados con diferentes datos, tienen sesgos distintos respecto al mismo fragmento de código, y el voto mayoritario puede filtrar efectivamente los puntos ciegos de un solo modelo.

La velocidad disminuye, la calidad aumenta

Tras aplicar este proceso, los resultados prácticos de Lawson son: la cantidad de código (líneas) no aumenta, sino que a menudo se detectan bugs antiguos que ya estaban presentes, obligando a escribir pruebas unitarias (automatizadas para verificar funciones pequeñas de forma independiente), y el tiempo para arreglar problemas antiguos suele ser mayor que el de avanzar en nuevas funciones.

Este no es el resultado que esperaba, pero desde otra perspectiva, indica que la salud básica del código está siendo reforzada sistemáticamente.

Lawson llama a este método “coding con una vibra más de calidad”, con cautela, método y orientación a la calidad.

La popularidad de las herramientas de desarrollo suele priorizar la “velocidad” como principal ventaja, pero el verdadero problema que enfrentan los ingenieros nunca ha sido solo la rapidez. Cada línea de código tiene un costo de mantenimiento y una probabilidad de fallar. Usar IA para escribir código puede ser más lento, pero hace que cada línea dure más y tenga menos probabilidades de fallar.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios