Epoch AI lança o mapa de especialização do Claude: a vantagem em escrever código sempre presente, Opus 4.6 e 4.7 já preencheram as lacunas em matemática

robot
Geração do resumo em andamento
AIMPACT mensagem, 16 de maio (UTC+8), de acordo com o monitoramento do Beating do Dongcha, a análise mais recente do Índice de Capacidade Específica de Domínio (Domain-specific ECI) publicada pela Epoch AI revelou que o modelo Claude da Anthropic tem mostrado um desempenho forte em codificação, mas fraco em matemática. No entanto, os dados mais recentes indicam que essa tendência de desequilíbrio está se acelerando para se equilibrar.
De acordo com as estimativas, entre várias gerações de modelos, o Claude sempre teve um desempenho consistentemente superior na avaliação de engenharia de software (SWE-ECI), enquanto apresentava uma lacuna de desempenho na avaliação de matemática (Math-ECI). Os modelos Opus 4.6 e 4.7 mais recentes reduziram a diferença entre a pontuação de matemática e a pontuação geral para menos de 1 ponto, preenchendo uma deficiência anterior.
O mecanismo de cálculo do ECI compara o desempenho relativo entre os principais modelos, refletindo diretamente a dificuldade média de tarefas específicas para a IA, e não a dificuldade para os humanos.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Half-SectionedSucculent
· 51m atrás
O índice de dificuldade relativa é mais interessante do que a pontuação absoluta, pois mostra a redução da diferença real entre os modelos.
Ver originalResponder0
GateUser-c3de680b
· 1h atrás
Opus 4.6/4.7 Esta rodada de reforço das fraquezas é muito sólida, o código forte e a matemática também acompanham, a versatilidade é que realmente faz parte da primeira linha.
Ver originalResponder0
GateUser-5578154d
· 2h atrás
Claude finalmente começou a entender de matemática
Ver originalResponder0
BridgeHopster
· 2h atrás
Diferença de um minuto, arredondada, significa que não há pontos fracos
Ver originalResponder0
SudoSage
· 2h atrás
SWE e Math dupla de alta performance, esta geração do Opus pode ser chamada de atleta versátil
Ver originalResponder0