El último modelo K2 Thinking de Kimi acaba de superar múltiples estándares de la industria. Estamos hablando de saltos serios en poder de razonamiento y habilidades de codificación aquí.
¿Los números? Bastante salvajes: - Alcanzar el 44.9% en HLE cuando está equipado con herramientas - Alcanzó el 60.2% en BrowseComp - Aterrizó 71.3% en SWE-Bench Verificado
Estas puntuaciones son importantes porque miden qué tan bien la IA maneja la resolución de problemas complejos y las tareas a nivel de agente. Para cualquiera que esté construyendo en este espacio, este tipo de avance podría remodelar nuestra forma de abordar los flujos de trabajo de desarrollo automatizado.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
6 me gusta
Recompensa
6
4
Republicar
Compartir
Comentar
0/400
GateUser-00be86fc
· hace9h
Es hora de entrar en la posición.
Ver originalesResponder0
LiquidatedThrice
· hace10h
¡La gente está tan metida en esto que la IA me va a quitar el trabajo!
Ver originalesResponder0
AirdropFatigue
· hace10h
Increíble, pero aún no es tan bueno como GPT-4
Ver originalesResponder0
SatoshiLeftOnRead
· hace10h
bruh... kimi realmente está aquí presumiendo de todos
El último modelo K2 Thinking de Kimi acaba de superar múltiples estándares de la industria. Estamos hablando de saltos serios en poder de razonamiento y habilidades de codificación aquí.
¿Los números? Bastante salvajes:
- Alcanzar el 44.9% en HLE cuando está equipado con herramientas
- Alcanzó el 60.2% en BrowseComp
- Aterrizó 71.3% en SWE-Bench Verificado
Estas puntuaciones son importantes porque miden qué tan bien la IA maneja la resolución de problemas complejos y las tareas a nivel de agente. Para cualquiera que esté construyendo en este espacio, este tipo de avance podría remodelar nuestra forma de abordar los flujos de trabajo de desarrollo automatizado.