Evaluación interna de V4-Pro: la tasa de aprobación de codificación se acerca a Opus4.5, el 52% de los evaluadores internos lo reconocen como modelo predeterminado.

robot
Generación de resúmenes en curso
Noticias de ME, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, V4 ha hecho públicos raramente los datos internos de dogfooding. El equipo recopiló alrededor de 200 tareas reales de I+D de más de 50 ingenieros, cubriendo desarrollo de funciones, corrección de errores, refactorización y diagnóstico, con stacks tecnológicos que incluyen PyTorch, CUDA, Rust, C++, después de una rigurosa selección se conservaron 30 como conjunto de evaluación. La tasa de aprobación de V4-Pro-Max es del 67%, significativamente superior al 47% de Sonnet 4.5, cercano al 70% de Opus 4.5, pero inferior al 73% de Opus 4.5 Thinking y al 80% de Opus 4.6 Thinking. La tasa de aprobación de Haiku 4.5 es solo del 13%. En una encuesta interna con N=85, todos los encuestados utilizan V4-Pro para agentic coding en su trabajo diario. El 52% cree que V4-Pro puede usarse como modelo de codificación principal predeterminado, el 39% se muestra de acuerdo, menos del 9% lo niega. Los principales problemas reportados incluyen errores de bajo nivel, malentendidos de prompts ambiguos y ocasionales pensamientos excesivos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado