OpenAI lanza el punto de referencia de biología computacional GeneBench-Pro, la versión completa de GPT-5.6 tiene solo un 30% de precisión.

robot
Generación de resúmenes en curso
Noticias de CoinWorld: OpenAI ha lanzado el punto de referencia de evaluación en biología computacional, GeneBench-Pro, diseñado para probar la capacidad de toma de decisiones en múltiples pasos de los agentes de IA al enfrentarse a escenarios complejos de investigación científica como la genómica y la medicina traslacional. El nuevo punto de referencia incluye un total de 129 problemas (de los cuales 82 han sido revisados por expertos externos), generando datos con relaciones causales claras mediante simulación por computadora para evitar que los modelos hagan trampa tomando atajos o adaptándose a las preferencias de los creadores de preguntas. Los resultados de las pruebas muestran que los modelos de vanguardia aún tienen dificultades significativas al manejar razonamientos científicos que incluyen incertidumbre cuantitativa. El modelo más potente, GPT-5.6, solo alcanzó una tasa de precisión del 31.5% en el modo Pro, mientras que Claude Opus 4.8 obtuvo solo un 16.0%. El equipo de investigación señaló que los modelos generalmente presentan una desconexión de "poder detectar anomalías pero no corregir el análisis posterior", eligiendo a menudo métodos estadísticos incorrectos o insistiendo en direcciones de investigación erróneas.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
ShellsLeftBehindByTheReceding
· hace2h
Estas puntuaciones me dejan en silencio, ¿Claude Opus solo tiene el 16%?
Ver originalResponder0
Salt-BakedSentimentChart
· hace2h
De las 129 preguntas, 82 fueron revisadas por expertos. Realmente se esmeraron en la prevención de trampas, pero el modelo incluso eligió mal el método estadístico, lo que demuestra que todavía falta la lógica subyacente.
Ver originalResponder0
PixelMetaverseRaccoon
· hace2h
Las decisiones de múltiples pasos son fáciles, pero cuando descubres que están mal y aún así continúas, ¿no es así como hago mis experimentos?
Ver originalResponder0
  • Fijado