Opus 4.6/4.7 compensa as deficiências matemáticas para ficar no mesmo nível da capacidade de codificação, esse indicador ECI é interessante — mede a dificuldade relativa entre os modelos, não comparado a humanos, então não confunda com "superar matemáticos humanos"

Ver original
MeNews
Epoch AI lança o mapa de especialização do Claude: a vantagem em escrever código sempre presente, Opus 4.6 e 4.7 já preencheram as lacunas em matemática
A análise do índice de capacidade específica de domínio do Epoch AI mostra que a série Claude lidera há muito tempo na escrita de código, mas sua habilidade matemática é relativamente fraca; os dados mais recentes indicam que essa deficiência está sendo rapidamente mitigada. Anteriormente, Claude tinha uma pontuação maior no SWE-ECI do que na pontuação geral, e uma diferença existia no Math-ECI, mas o Opus 4.6/4.7 reduziu ambas para dentro de 1 ponto, preenchendo a lacuna. O ECI reflete a dificuldade relativa da tarefa entre os modelos, e não a dificuldade para os humanos.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado