Sitio de BigEye News, el investigador de OpenAI Noam Brown expresó su opinión, señalando que a medida que mejora el rendimiento de los modelos de inteligencia artificial, las calificaciones en pruebas estandarizadas que miden la calidad del modelo tienden a avanzar gradualmente hacia el control de las capacidades de inferencia.


Ya no es suficiente una puntuación fija y única para reflejar el nivel real de un modelo potente, y en el futuro, el criterio de evaluación debe convertirse en una curva de rendimiento que se extienda en función de la capacidad de inferencia o del número de tokens generados.
Como ejemplo de la nueva prueba del modelo GPT-5.5, en las pruebas preliminares tradicionales, no hubo una ventaja clara de GPT-5.5 en comparación con GPT-5.4, pero una vez que se asignó más capacidad de inferencia, su rendimiento comenzó a aumentar de manera explosiva.
Noam Brown advirtió que las evaluaciones actuales de seguridad biológica o en redes a menudo no incluyen un presupuesto de inferencia fijo, y cuando los adversarios invierten más de un millón de dólares a nivel nacional en una tarea específica, el modelo que parecía seguro puede cruzar la línea roja del peligro.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado