A análise do índice de capacidade específica de domínio do Epoch AI mostra que a série Claude lidera há muito tempo na escrita de código, mas tem uma capacidade matemática relativamente fraca; os dados mais recentes indicam que essa disparidade está sendo rapidamente reduzida. Anteriormente, Claude tinha uma pontuação de SWE-ECI superior à pontuação geral, com uma diferença em Math-ECI, mas o Opus 4.6/4.7 reduziu ambas para dentro de 1 ponto, preenchendo as lacunas. O ECI reflete a dificuldade relativa da tarefa entre os modelos, e não a dificuldade para os humanos.

MeNews

2026-05-27 22:31:07

Geração de resumo em curso

AIMPACT mensagem, 16 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, a análise mais recente do índice de capacidade específica de domínio (Domain-specific ECI) publicada pela Epoch AI revelou que o modelo Claude da Anthropic tem mostrado um desempenho forte em codificação e fraco em matemática. No entanto, os dados mais recentes indicam que esta tendência de desequilíbrio está a diminuir rapidamente.
De acordo com as estimativas, nos modelos anteriores, o Claude tinha um desempenho consistentemente superior na avaliação de engenharia de software (SWE-ECI) em relação à sua pontuação geral, enquanto apresentava uma lacuna persistente na avaliação de matemática (Math-ECI).
Os modelos Opus 4.6 e 4.7 recentemente lançados reduziram a diferença entre a pontuação de matemática e a pontuação geral para menos de 1 ponto, preenchendo assim uma lacuna anterior.
O mecanismo de cálculo do ECI compara o desempenho relativo entre os principais modelos, refletindo diretamente a dificuldade média de tarefas específicas para a IA, e não a dificuldade para os humanos.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

7 gostos

Recompensa
7
6
1
Partilhar

Comentar

Adicionar um comentário

ReorgPanicButton

· 3h atrás

Math-ECI igualar significa que qualquer cenário pode ser enfrentado, não sendo mais apenas uma ferramenta para programadores.

Ver originalResponder0

Half-SectionedSucculent

· 5h atrás

O índice de dificuldade relativa é mais interessante do que a pontuação absoluta, pois observa a redução da diferença real entre os modelos.

Ver originalResponder0

GateUser-c3de680b

· 6h atrás

Opus 4.6/4.7 Esta reforço das fraquezas é muito sólido, o código forte e a matemática também acompanham, a versatilidade é que realmente faz parte da primeira linha

Ver originalResponder0

GateUser-5578154d

· 7h atrás

Claude finalmente começou a mostrar força na matemática

Ver originalResponder0

BridgeHopster

· 7h atrás

Diferença de um minuto, arredondando, significa que não há pontos fracos

Ver originalResponder0

SudoSage

· 7h atrás

SWE e Math dupla de alta performance, esta geração do Opus pode ser chamada de atleta versátil

Ver originalResponder0

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.03M Popularidade
#
IsraelStrikesIranBTCPlunges
50K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.25M Popularidade
#
USLaunchesNewStrikesOnIranOilRebounds
9.31M Popularidade
#
2gGoldEvery10Minutes
3.09M Popularidade

Fixado

Epoch AI lança o mapa de especialização do Claude: a vantagem na escrita de código permanece, Opus 4.6 e 4.7 já preencheram as lacunas matemáticas

Tópicos em destaque

StockTradingChallengeUpTo17000U

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

USLaunchesNewStrikesOnIranOilRebounds

2gGoldEvery10Minutes

Fixado