Згідно з моніторингом Beating, відкритий модель AI від Zhipu GLM-5.2 офіційно запущена у довгостроковому програмному інженерному бенчмарку DeepSWE. У режимі максимальної інтелектуальної потужності успіх однієї складної задачі досягає 44%, що є найвищим показником серед відкритих моделей. У порівнянні з попередніми моделями, такими як Kimi K2.7 Code, успіх перевищує на 13 відсоткових пунктів.

Середня вартість виконання кожної задачі для GLM-5.2 становить 3.92 долара, що трохи вище за Kimi K2.7 Code, яка коштує 2.82 долара, але рівень успіху перевищує кілька провідних закритих моделей у певних конфігураціях мислення, включаючи Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), а також Claude Opus 4.8 [low] (41%).

Розроблений організатором оцінювання Datacurve бенчмарк DeepSWE спеціально тестує здатність AI-інтелекту вирішувати довгі задачі. Тест включає 113 реальних програмних задач, що охоплюють 5 мов програмування. На відміну від традиційних тестів, які змінюють лише один фрагмент коду, DeepSWE вимагає від AI спільного редагування кількох файлів, з середнім обсягом виправленого коду понад 600 рядків. Оцінювання проводиться у ізольованих контейнерах із суворими обмеженнями ресурсів CPU та пам’яті.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
MyGateTradeStory
1,04M Популярність
#
USIranTalksPostponed
20,38M Популярність
#
IsraelStrikesIranBTCPlunges
60,69K Популярність
#
PredictWorldCup🇺🇸vs🇵🇾
920,3K Популярність
#
TradFiCFDGoldMaster
2,07M Популярність

Закріплено

карта сайту

智譜GLM-5.2 підкорив вершину DeepSWE як перший відкритий проект: вирішує 44% складних завдань розробки, перевершуючи основні закриті моделі

Популярні теми

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Закріплено