Остання модель K2 Thinking від Кімі просто перевершила кілька галузевих стандартів. Ми говоримо про серйозні стрибки в здатності розуміти та навичках кодування.

Цифри? Досить дикий:
- Вдарте 44.9% на HLE, коли оснащені інструментами
- Досягнуто 60.2% на BrowseComp
- Приземлено 71.3% на перевіреному SWE-Bench

Ці бали важливі, оскільки вони вимірюють, наскільки добре ШІ справляється з комплексним розв'язанням проблем та завданнями на рівні агентів. Для всіх, хто працює у цій сфері, такого роду прогрес може змінити наш підхід до автоматизованих робочих процесів розробки.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

7 лайків