Revisión interna de DeepSeek V4-Pro: La tasa de aprobación del código se acerca a Opus 4.5, el 52% de los probadores lo respaldan como modelo predeterminado

Según el monitoreo de Dongcha Beating, DeepSeek V4 rara vez ha divulgado datos internos de prueba interna. El equipo recopiló alrededor de 200 tareas reales de I+D de más de 50 ingenieros, cubriendo desarrollo funcional, corrección de errores, refactorización y diagnósticos, con una pila tecnológica que incluye PyTorch, CUDA, Rust y C++. Después de una selección estricta, se retuvieron 30 tareas como conjunto de evaluación. La tasa de aprobación de V4-Pro-Max es del 67%, significativamente más alta que la del Sonnet 4.5, que es del 47%, y cercana a la de Opus 4.5, que es del 70%, pero menor que la de Opus 4.5 Thinking, con un 73%, y la de Opus 4.6 Thinking, con un 80%. La tasa de aprobación de Haiku 4.5 es solo del 13%. En una encuesta interna con N=85, todos los encuestados informaron que usan V4-Pro para codificación agentica en su trabajo diario. El 52% cree que V4-Pro puede servir como el modelo de codificación principal predeterminado, el 39% tiende a estar de acuerdo y menos del 9% en desacuerdo. Los principales problemas de retroalimentación incluyen errores básicos, malentendidos de indicaciones vagas y ocasionalmente pensar demasiado.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado