Остання модель K2 Thinking від Кімі просто перевершила кілька галузевих стандартів. Ми говоримо про серйозні стрибки в здатності розуміти та навичках кодування.
Цифри? Досить дикий: - Вдарте 44.9% на HLE, коли оснащені інструментами - Досягнуто 60.2% на BrowseComp - Приземлено 71.3% на перевіреному SWE-Bench
Ці бали важливі, оскільки вони вимірюють, наскільки добре ШІ справляється з комплексним розв'язанням проблем та завданнями на рівні агентів. Для всіх, хто працює у цій сфері, такого роду прогрес може змінити наш підхід до автоматизованих робочих процесів розробки.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
7 лайків
Нагородити
7
4
Репост
Поділіться
Прокоментувати
0/400
GateUser-00be86fc
· 11-08 14:04
Час заходити в позицію.
Переглянути оригіналвідповісти на0
LiquidatedThrice
· 11-08 13:46
Ха люди, якщо це продовжиться, то штучний інтелект забере в мене роботу.
Остання модель K2 Thinking від Кімі просто перевершила кілька галузевих стандартів. Ми говоримо про серйозні стрибки в здатності розуміти та навичках кодування.
Цифри? Досить дикий:
- Вдарте 44.9% на HLE, коли оснащені інструментами
- Досягнуто 60.2% на BrowseComp
- Приземлено 71.3% на перевіреному SWE-Bench
Ці бали важливі, оскільки вони вимірюють, наскільки добре ШІ справляється з комплексним розв'язанням проблем та завданнями на рівні агентів. Для всіх, хто працює у цій сфері, такого роду прогрес може змінити наш підхід до автоматизованих робочих процесів розробки.