El último modelo K2 Thinking de Kimi acaba de superar múltiples estándares de la industria. Estamos hablando de saltos serios en poder de razonamiento y habilidades de codificación aquí.

¿Los números? Bastante salvajes:
- Alcanzar el 44.9% en HLE cuando está equipado con herramientas
- Alcanzó el 60.2% en BrowseComp
- Aterrizó 71.3% en SWE-Bench Verificado

Estas puntuaciones son importantes porque miden qué tan bien la IA maneja la resolución de problemas complejos y las tareas a nivel de agente. Para cualquiera que esté construyendo en este espacio, este tipo de avance podría remodelar nuestra forma de abordar los flujos de trabajo de desarrollo automatizado.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

6 me gusta