METR atualiza o padrão de capacidade de agentes de IA, o Gemini 3.1Pro supera toda a confiabilidade dos modelos de ponta e alcança o topo

robot
Geração de resumo em curso

ME News Notícias, 16 de abril (UTC+8), de acordo com a monitorização do Beating, a organização de avaliação de segurança de IA METR atualizou o padrão de “Horizonte Temporal” (Time Horizon), adicionando dados de teste do Google Gemini 3.1 Pro. Este padrão acompanha o limite de capacidade de agentes de IA de ponta em realizar tarefas de programação de forma independente, tendo se tornado uma referência importante para medir o crescimento das capacidades dos agentes de IA desde o seu lançamento em fevereiro deste ano. A medição consiste em fazer um especialista humano em engenharia de software (com média de aproximadamente 5 anos de experiência) e um agente de IA completarem o mesmo conjunto de mais de cem tarefas de software, usando o tempo gasto pelos humanos para avaliar a dificuldade da tarefa. Existem dois indicadores principais: o horizonte temporal de 50% (a maior dificuldade de tarefa que a IA tem 50% de probabilidade de completar) e o horizonte temporal de 80% (a maior dificuldade de tarefa que a IA tem 80% de probabilidade de completar). O Gemini 3.1 Pro apresentou uma inversão na classificação nesses dois indicadores. No horizonte de 50%, ficou em segundo lugar, atrás do Claude Opus 4.6, que lidera significativamente: 1. Claude Opus 4.6: aproximadamente 12,0 horas 2. Gemini 3.1 Pro: aproximadamente 6,4 horas 3. GPT-5.2: aproximadamente 5,9 horas 4. GPT-5.4: aproximadamente 5,7 horas. Porém, no mais rigoroso horizonte de 80%, o Gemini 3.1 Pro superou e conquistou o topo: 1. Gemini 3.1 Pro: aproximadamente 1,5 horas 2. Claude Opus 4.6: aproximadamente 1,2 horas 3. GPT-5.2: aproximadamente 1,1 horas. O Claude Opus 4.6 consegue desafiar tarefas mais difíceis, mas sua taxa de sucesso é mais volátil, enquanto o Gemini 3.1 Pro tem um teto mais baixo, mas é mais estável dentro de sua capacidade. Para cenários de produção que requerem resultados previsíveis, o último pode ser mais prático. Em comparação com a geração anterior, o Gemini 3 Pro (com horizonte de 50% de aproximadamente 3,7 horas), o Gemini 3.1 Pro melhorou cerca de 71%. Em uma visão de longo prazo, os dados da METR mostram que o horizonte temporal de modelos de ponta cresceu de alguns segundos com o GPT-2 em 2019 para mais de uma dezena de horas atualmente, aproximadamente dobrando a cada 4,3 meses, e a METR afirma que “não há sinais de desaceleração no crescimento exponencial”. É importante notar que as tarefas da METR abrangem engenharia de software, aprendizado de máquina e segurança de rede, todas tarefas independentes com critérios de avaliação claros e passíveis de pontuação automática. Em estudos posteriores, a METR descobriu que, quando a avaliação mudou de uma determinação algorítmica para uma avaliação geral humana, o desempenho da IA caiu significativamente. Um horizonte de 12 horas não equivale a a IA substituir humanos por meio dia de trabalho real. (Fonte: BlockBeats)

ME2,66%
4-3,34%
GOOGLX-0,77%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado