El modelo SWE-Check, desarrollado en colaboración entre Cognition AI y Applied Compute, implementa detección de errores de código mediante aprendizaje por refuerzo, logrando una velocidad y un costo significativamente mejores que los modelos de vanguardia. Aunque en las evaluaciones la brecha con Claude Opus 4.6 se ha reducido, aún requiere optimización adicional. Este modelo utiliza una recompensa lineal y un método de entrenamiento en dos etapas, con el objetivo de mejorar la precisión de detección y la eficiencia operativa. La versión preliminar ya está disponible en Windsurf Next.

MeNews

2026-05-08 07:35:33

Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dòngchá Beating, la empresa matriz de Windsurf, una herramienta de programación AI, Cognition AI, colaboró con la compañía de entrenamiento de IA Applied Compute para entrenar un modelo especializado en detección de errores de código, SWE-Check, mediante aprendizaje por refuerzo. Este modelo analiza los cambios actuales del código del usuario (diff), marca automáticamente posibles errores introducidos y ofrece sugerencias de corrección. En evaluaciones con distribución similar a los datos de entrenamiento, la puntuación F1 de SWE-Check igualó a Claude Opus 4.6 (la diferencia bajó de 0.09 a 0); en evaluaciones con distribución diferente, la brecha se redujo de 0.49 a 0.29, todavía por detrás de los modelos de vanguardia pero con avances claros. La ventaja clave radica en la velocidad y el costo: SWE-Check es un orden de magnitud más rápido que los modelos de vanguardia, y su costo de inferencia se redujo significativamente, permitiendo detección de errores en tiempo real y gratuita en IDE, algo que no pueden hacer modelos grandes como Opus 4.6.
Hay dos enfoques de entrenamiento que merecen atención:

Linearización de recompensas (reward linearization): el equipo busca optimizar la métrica global F-beta, pero esta métrica no se puede descomponer directamente en muestras individuales. Utilizaron una aproximación de primer orden para convertir la métrica global en una función de recompensa calculable por muestra, permitiendo que el entrenamiento mejore efectivamente la métrica global. Las versiones tempranas tenían una tasa de falsos positivos demasiado alta, por lo que ajustaron beta de 1 a 0.5 para enfatizar la precisión.
Entrenamiento en dos fases posteriores: la primera fase maximiza puramente la capacidad de detección de errores, sin penalizar la latencia; la segunda fase introduce una penalización por latencia basada en la distribución estadística del tiempo que tarda un usuario real en cambiar de tarea tras activar la detección. Este método en fases es superior a optimizar ambos objetivos simultáneamente, ya que la optimización conjunta puede quedar atrapada en óptimos locales, por ejemplo, aprender a detectar errores muy rápido pero con análisis superficial.
La versión preliminar de SWE-Check ya está disponible en Windsurf Next (atajo cmd+U), y posteriormente se integrará en la versión oficial de Windsurf.
(Origen: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
801.07K Popularidad
#
BitcoinFallsBelow80K
95.04M Popularidad
#
IsraelStrikesIranBTCPlunges
44.41K Popularidad
#
IranUSConflictEscalates
98.24K Popularidad
#
OilPriceRollerCoaster
309.69K Popularidad

Anclado

Windsurf entrenó un pequeño modelo especializado en detectar errores con RL, y en la evaluación interna ha igualado a Claude Opus 4.6

Temas de actualidad

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Anclado