Windsurf entrenó un pequeño modelo especializado en detectar errores utilizando RL, y en la evaluación interna ha igualado a Claude Opus 4.6

robot
Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la empresa matriz de Windsurf, una herramienta de programación AI, Cognition AI, colaboró con la compañía de entrenamiento de IA Applied Compute para entrenar un modelo especializado en detección de errores de código, SWE-Check, mediante aprendizaje por refuerzo. Este modelo analiza los cambios actuales del código del usuario (diff), marca automáticamente posibles errores introducidos y ofrece sugerencias de corrección. En evaluaciones con distribución similar a los datos de entrenamiento, la puntuación F1 de SWE-Check igualó a Claude Opus 4.6 (la diferencia bajó de 0.09 a 0); en evaluaciones con distribución cruzada, la diferencia se redujo de 0.49 a 0.29, todavía por detrás de los modelos de vanguardia pero con avances claros. La ventaja clave radica en la velocidad y el costo: SWE-Check es un orden de magnitud más rápido que los modelos de punta, y su costo de inferencia se redujo significativamente, permitiendo detección de errores en tiempo real y gratuita en IDE, algo que no pueden hacer modelos grandes como Opus 4.6.

Hay dos enfoques de entrenamiento que merecen atención en su diseño:

  1. Linearización de recompensas (reward linearization): el equipo busca optimizar la métrica global F-beta, pero esta métrica no se puede descomponer directamente en muestras individuales. Utilizaron una aproximación de primer orden para transformar la métrica global en una función de recompensa calculable por muestra, permitiendo que el entrenamiento mejore efectivamente la métrica global. Las versiones tempranas tenían una tasa de falsos positivos demasiado alta, por lo que ajustaron beta de 1 a 0.5 para enfatizar la precisión.
  2. Entrenamiento en dos fases posteriores: la primera fase maximiza puramente la capacidad de detección de errores, sin penalizar la latencia; la segunda fase introduce una penalización por latencia basada en la distribución estadística del tiempo que tarda un usuario real en abandonar tras activar la detección. Este método por fases es superior a optimizar ambos objetivos simultáneamente, ya que la optimización conjunta puede quedar atrapada en óptimos locales, como aprender a detectar errores muy rápido pero con análisis superficial.

La versión preliminar de SWE-Check ya está disponible en Windsurf Next (atajo cmd+U), y posteriormente se integrará en la versión oficial de Windsurf.
(Fuente: BlockBeats)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado