Cognition AI y Applied Compute colaboraron en el desarrollo del modelo SWE-Check, que utiliza aprendizaje por refuerzo para detectar errores en el código, logrando una velocidad y un costo significativamente mejores que los modelos de vanguardia. Aunque en las evaluaciones la brecha con Claude Opus 4.6 se ha reducido, aún requiere optimización adicional. Este modelo emplea recompensas lineales y un método de entrenamiento en dos etapas, con el objetivo de mejorar la precisión de detección y la eficiencia operativa. La versión preliminar ya está disponible en Windsurf Next.

MeNews

2026-04-15 12:40:17

Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la empresa matriz de Windsurf, una herramienta de programación AI, Cognition AI, colaboró con la compañía de entrenamiento de IA Applied Compute para entrenar un modelo especializado en detección de errores de código, SWE-Check, mediante aprendizaje por refuerzo. Este modelo analiza los cambios actuales del código del usuario (diff), marca automáticamente posibles errores introducidos y ofrece sugerencias de corrección. En evaluaciones con distribución similar a los datos de entrenamiento, la puntuación F1 de SWE-Check igualó a Claude Opus 4.6 (la diferencia bajó de 0.09 a 0); en evaluaciones con distribución cruzada, la diferencia se redujo de 0.49 a 0.29, todavía por detrás de los modelos de vanguardia pero con avances claros. La ventaja clave radica en la velocidad y el costo: SWE-Check es un orden de magnitud más rápido que los modelos de punta, y su costo de inferencia se redujo significativamente, permitiendo detección de errores en tiempo real y gratuita en IDE, algo que no pueden hacer modelos grandes como Opus 4.6.

Hay dos enfoques de entrenamiento que merecen atención en su diseño:

Linearización de recompensas (reward linearization): el equipo busca optimizar la métrica global F-beta, pero esta métrica no se puede descomponer directamente en muestras individuales. Utilizaron una aproximación de primer orden para transformar la métrica global en una función de recompensa calculable por muestra, permitiendo que el entrenamiento mejore efectivamente la métrica global. Las versiones tempranas tenían una tasa de falsos positivos demasiado alta, por lo que ajustaron beta de 1 a 0.5 para enfatizar la precisión.
Entrenamiento en dos fases posteriores: la primera fase maximiza puramente la capacidad de detección de errores, sin penalizar la latencia; la segunda fase introduce una penalización por latencia basada en la distribución estadística del tiempo que tarda un usuario real en abandonar tras activar la detección. Este método por fases es superior a optimizar ambos objetivos simultáneamente, ya que la optimización conjunta puede quedar atrapada en óptimos locales, como aprender a detectar errores muy rápido pero con análisis superficial.

La versión preliminar de SWE-Check ya está disponible en Windsurf Next (atajo cmd+U), y posteriormente se integrará en la versión oficial de Windsurf.
(Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GatePreIPOsLaunchesWithSpaceX
127.5K Popularidad
#
GateMarchTransparencyReport
47.4K Popularidad
#
IsraelStrikesIranBTCPlunges
29.86K Popularidad
#
GoldmanSachsFilesBitcoinIncomeETF
779.46K Popularidad
#
USBlocksStraitofHormuz
753.19K Popularidad

Anclado

Windsurf entrenó un pequeño modelo especializado en detectar errores utilizando RL, y en la evaluación interna ha igualado a Claude Opus 4.6

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Anclado