O mais recente modelo K2 Thinking da Kimi acaba de superar vários benchmarks da indústria. Estamos a falar de saltos sérios em poder de raciocínio e habilidades de codificação aqui.
Os números? Bastante loucos: - Atingiu 44,9% no HLE quando equipado com ferramentas - Atingido 60,2% no BrowseComp - Aterrissou 71,3% na SWE-Bench Verificado
Essas pontuações são importantes porque medem quão bem a IA lida com a resolução de problemas complexos e tarefas em nível de agente. Para qualquer pessoa que esteja construindo neste espaço, esse tipo de avanço pode reconfigurar a forma como abordamos fluxos de trabalho de desenvolvimento automatizado.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
6 gostos
Recompensa
6
4
Republicar
Partilhar
Comentar
0/400
GateUser-00be86fc
· 16h atrás
Está na hora de entrar no armazém.
Ver originalResponder0
LiquidatedThrice
· 17h atrás
As pessoas vão acabar tirando meu emprego com a IA.
Ver originalResponder0
AirdropFatigue
· 17h atrás
Incrível, mas ainda assim não é tão bom quanto o GPT-4
Ver originalResponder0
SatoshiLeftOnRead
· 17h atrás
bruh... a kimi está realmente a exibir-se em relação a todos
O mais recente modelo K2 Thinking da Kimi acaba de superar vários benchmarks da indústria. Estamos a falar de saltos sérios em poder de raciocínio e habilidades de codificação aqui.
Os números? Bastante loucos:
- Atingiu 44,9% no HLE quando equipado com ferramentas
- Atingido 60,2% no BrowseComp
- Aterrissou 71,3% na SWE-Bench Verificado
Essas pontuações são importantes porque medem quão bem a IA lida com a resolução de problemas complexos e tarefas em nível de agente. Para qualquer pessoa que esteja construindo neste espaço, esse tipo de avanço pode reconfigurar a forma como abordamos fluxos de trabalho de desenvolvimento automatizado.