METR actualiza el estándar de capacidad de agentes AI, Gemini 3.1Pro supera la fiabilidad de todos los modelos de vanguardia y alcanza la cima

robot
Generación de resúmenes en curso

ME News Noticias, 16 de abril (UTC+8), según Beating de Dongcha, la agencia de evaluación de seguridad de IA METR actualizó el estándar de “Línea de Tiempo” (Time Horizon), añadiendo datos de prueba de Google Gemini 3.1 Pro. Este estándar rastrea el límite de capacidad de los agentes de IA de vanguardia para completar tareas de programación de forma independiente, y desde su lanzamiento en febrero de este año, se ha convertido en una referencia importante para medir el crecimiento de las capacidades de los agentes de IA. La medición consiste en hacer que un experto en ingeniería de software (con un promedio de aproximadamente 5 años de experiencia) y un agente de IA completen el mismo conjunto de más de cien tareas de software, usando el tiempo humano como medida de la dificultad de la tarea. Los indicadores clave son dos: la línea de tiempo del 50% (la dificultad máxima de tarea que la IA tiene una probabilidad del 50% de completar) y la línea de tiempo del 80% (la dificultad máxima de tarea que la IA tiene una probabilidad del 80% de completar). Gemini 3.1 Pro mostró una inversión en el ranking en estos dos indicadores. La línea de tiempo del 50% quedó en segundo lugar, solo detrás de Claude Opus 4.6, que lidera ampliamente: 1. Claude Opus 4.6: aproximadamente 12.0 horas 2. Gemini 3.1 Pro: aproximadamente 6.4 horas 3. GPT-5.2: aproximadamente 5.9 horas 4. GPT-5.4: aproximadamente 5.7 horas Pero en la línea de tiempo del 80% más estricta, Gemini 3.1 Pro superó a los demás y alcanzó la cima: 1. Gemini 3.1 Pro: aproximadamente 1.5 horas 2. Claude Opus 4.6: aproximadamente 1.2 horas 3. GPT-5.2: aproximadamente 1.1 horas Claude Opus 4.6 puede desafiar tareas más difíciles, pero su tasa de éxito fluctúa mucho, mientras que Gemini 3.1 Pro tiene un techo más bajo pero es más estable dentro de su rango de capacidades. Para escenarios de producción que requieren resultados predecibles, este último puede ser más práctico. En comparación con la generación anterior, Gemini 3 Pro (línea de tiempo del 50% de aproximadamente 3.7 horas), Gemini 3.1 Pro ha mejorado aproximadamente un 71%. Desde una perspectiva de línea de tiempo más larga, los datos de METR muestran que la línea de tiempo de los modelos de vanguardia ha pasado de unos pocos segundos en GPT-2 en 2019 a más de diez horas en la actualidad, duplicándose aproximadamente cada 4.3 meses, y METR afirma que “no se observa ninguna señal de desaceleración en el crecimiento exponencial”. Es importante señalar que las tareas cubiertas por METR incluyen ingeniería de software, aprendizaje automático y ciberseguridad, todas ellas tareas independientes con definiciones claras y puntuación automática. En investigaciones posteriores, METR descubrió que cuando la evaluación cambió de un juicio algorítmico a una evaluación global humana, el rendimiento de la IA disminuyó notablemente. Una línea de tiempo de 12 horas no equivale a que la IA pueda reemplazar a los humanos en medio día de trabajo real. (Fuente: BlockBeats)

ME2,66%
4-3,34%
GOOGLX-0,77%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado