Site Pegiu News, o pesquisador da OpenAI Noam Brown deu sua opinião, indicando que, à medida que o desempenho dos modelos de inteligência artificial melhora, as pontuações em testes padronizados que medem a qualidade do modelo tendem a evoluir gradualmente para controlar a capacidade de inferência.


A pontuação fixa e única não reflete mais o nível real do modelo forte, e o padrão de avaliação no futuro deve se transformar em uma curva de desempenho que se estende com base na capacidade de inferência ou no número de tokens gerados.
Como exemplo do novo teste do modelo GPT-5.5, nos testes tradicionais iniciais, não houve uma vantagem clara do GPT-5.5 em relação ao GPT-5.4, mas assim que foi alocada mais capacidade de inferência, seu desempenho começou a subir de forma explosiva.
Noam Brown alertou que as avaliações atuais de segurança biológica ou de rede frequentemente não incluem um orçamento de inferência fixo, e quando adversários investem mais de um milhão de dólares em uma missão específica a nível nacional, o modelo que parecia seguro pode ultrapassar a linha vermelha do perigo.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado