Windsurf entrenó un pequeño modelo especializado en detectar errores con RL, y en la evaluación interna ha igualado a Claude Opus 4.6

robot
Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dòngchá Beating, la empresa matriz de Windsurf, una herramienta de programación AI, Cognition AI, colaboró con la compañía de entrenamiento de IA Applied Compute para entrenar un modelo especializado en detección de errores de código, SWE-Check, mediante aprendizaje por refuerzo. Este modelo analiza los cambios actuales del código del usuario (diff), marca automáticamente posibles errores introducidos y ofrece sugerencias de corrección. En evaluaciones con distribución similar a los datos de entrenamiento, la puntuación F1 de SWE-Check igualó a Claude Opus 4.6 (la diferencia bajó de 0.09 a 0); en evaluaciones con distribución diferente, la brecha se redujo de 0.49 a 0.29, todavía por detrás de los modelos de vanguardia pero con avances claros. La ventaja clave radica en la velocidad y el costo: SWE-Check es un orden de magnitud más rápido que los modelos de vanguardia, y su costo de inferencia se redujo significativamente, permitiendo detección de errores en tiempo real y gratuita en IDE, algo que no pueden hacer modelos grandes como Opus 4.6.
Hay dos enfoques de entrenamiento que merecen atención:

  1. Linearización de recompensas (reward linearization): el equipo busca optimizar la métrica global F-beta, pero esta métrica no se puede descomponer directamente en muestras individuales. Utilizaron una aproximación de primer orden para convertir la métrica global en una función de recompensa calculable por muestra, permitiendo que el entrenamiento mejore efectivamente la métrica global. Las versiones tempranas tenían una tasa de falsos positivos demasiado alta, por lo que ajustaron beta de 1 a 0.5 para enfatizar la precisión.
  2. Entrenamiento en dos fases posteriores: la primera fase maximiza puramente la capacidad de detección de errores, sin penalizar la latencia; la segunda fase introduce una penalización por latencia basada en la distribución estadística del tiempo que tarda un usuario real en cambiar de tarea tras activar la detección. Este método en fases es superior a optimizar ambos objetivos simultáneamente, ya que la optimización conjunta puede quedar atrapada en óptimos locales, por ejemplo, aprender a detectar errores muy rápido pero con análisis superficial.
    La versión preliminar de SWE-Check ya está disponible en Windsurf Next (atajo cmd+U), y posteriormente se integrará en la versión oficial de Windsurf.
    (Origen: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado