Grok acabou de varrer as tabelas em várias plataformas de benchmarking de IA.
O modelo está agora no topo de oito tabelas de classificação diferentes: BlackBox AI, Terminal-Bench Hard, GPQA Diamond, SciCode, AAII Token Usage, Roo Code, KiloCode e Cline. É uma vitória limpa em alguns testes técnicos bastante exigentes.
No OpenRouter, o padrão continua. O Grok é atualmente o modelo de linguagem grande mais popular para consultas em inglês e lidera nas métricas de uso de tokens.
Essas classificações abrangem tudo, desde tarefas de programação até raciocínio científico, sugerindo que o desempenho do modelo é consistente em diferentes casos de uso, em vez de se destacar apenas em uma área restrita.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
9 gostos
Recompensa
9
7
Republicar
Partilhar
Comentar
0/400
HodlOrRegret
· 23h atrás
Os grandes modelos estão realmente a ficar loucos com a competição
Grok acabou de varrer as tabelas em várias plataformas de benchmarking de IA.
O modelo está agora no topo de oito tabelas de classificação diferentes: BlackBox AI, Terminal-Bench Hard, GPQA Diamond, SciCode, AAII Token Usage, Roo Code, KiloCode e Cline. É uma vitória limpa em alguns testes técnicos bastante exigentes.
No OpenRouter, o padrão continua. O Grok é atualmente o modelo de linguagem grande mais popular para consultas em inglês e lidera nas métricas de uso de tokens.
Essas classificações abrangem tudo, desde tarefas de programação até raciocínio científico, sugerindo que o desempenho do modelo é consistente em diferentes casos de uso, em vez de se destacar apenas em uma área restrita.