Kimi'nin en son K2 Thinking modeli, birden fazla endüstri ölçütünü geçmeyi başardı. Burada ciddi akıl yürütme gücü ve kodlama yeteneklerinde büyük sıçramalardan bahsediyoruz.

Rakamlar? Oldukça çılgın:
- Araçlar ile donatıldığında HLE'de %44.9'a ulaştı
- BrowseComp'te %60.2'ye ulaşıldı
- SWE-Bench Doğrulandı'nda %71.3 elde edildi

Bu puanlar önemlidir çünkü AI'nın karmaşık problem çözme ve ajan seviyesindeki görevleri ne kadar iyi yönettiğini ölçer. Bu alanda çalışan herkes için, bu tür bir ilerleme otomatik geliştirme iş akışlarına yaklaşımımızı yeniden şekillendirebilir.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

6 Likes