Epoch AI lança o mapa de especialização do Claude: a vantagem na escrita de código permanece, Opus 4.6 e 4.7 já preencheram as lacunas matemáticas

robot
Geração de resumo em curso
AIMPACT mensagem, 16 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, a análise mais recente do índice de capacidade específica de domínio (Domain-specific ECI) publicada pela Epoch AI revelou que o modelo Claude da Anthropic tem mostrado um desempenho forte em codificação e fraco em matemática. No entanto, os dados mais recentes indicam que esta tendência de desequilíbrio está a diminuir rapidamente.
De acordo com as estimativas, nos modelos anteriores, o Claude tinha um desempenho consistentemente superior na avaliação de engenharia de software (SWE-ECI) em relação à sua pontuação geral, enquanto apresentava uma lacuna persistente na avaliação de matemática (Math-ECI).
Os modelos Opus 4.6 e 4.7 recentemente lançados reduziram a diferença entre a pontuação de matemática e a pontuação geral para menos de 1 ponto, preenchendo assim uma lacuna anterior.
O mecanismo de cálculo do ECI compara o desempenho relativo entre os principais modelos, refletindo diretamente a dificuldade média de tarefas específicas para a IA, e não a dificuldade para os humanos.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 6
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
ReorgPanicButton
· 3h atrás
Math-ECI igualar significa que qualquer cenário pode ser enfrentado, não sendo mais apenas uma ferramenta para programadores.
Ver originalResponder0
Half-SectionedSucculent
· 5h atrás
O índice de dificuldade relativa é mais interessante do que a pontuação absoluta, pois observa a redução da diferença real entre os modelos.
Ver originalResponder0
GateUser-c3de680b
· 6h atrás
Opus 4.6/4.7 Esta reforço das fraquezas é muito sólido, o código forte e a matemática também acompanham, a versatilidade é que realmente faz parte da primeira linha
Ver originalResponder0
GateUser-5578154d
· 7h atrás
Claude finalmente começou a mostrar força na matemática
Ver originalResponder0
BridgeHopster
· 7h atrás
Diferença de um minuto, arredondando, significa que não há pontos fracos
Ver originalResponder0
SudoSage
· 7h atrás
SWE e Math dupla de alta performance, esta geração do Opus pode ser chamada de atleta versátil
Ver originalResponder0
  • Fixado