Согласно мониторингу Beating, открытая модель AI от Zhipu GLM-5.2 официально вошла в базу данных долгосрочного программного обеспечения DeepSWE. В режиме максимальной мощности мышления вероятность успешного выполнения сложных задач достигает 44%, что занимает первое место среди открытых моделей.
По сравнению с ранее вошедшей моделью Kimi K2.7 Code, показатель успеха выше на 13 процентных пунктов.

Средняя стоимость выполнения каждой задачи для GLM-5.2 составляет 3,92 доллара, что немного выше, чем у Kimi K2.7 Code — 2,82 доллара, однако уровень успеха превосходит показатели нескольких основных закрытых моделей в определённых конфигурациях мышления, включая Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), а также Claude Opus 4.8 [low] (41%).

Разработчик оценки Datacurve создал базу DeepSWE специально для тестирования способности ИИ решать долгосрочные задачи. Тест включает 113 реальных программных задач, охватывающих 5 языков программирования. В отличие от традиционных тестов, предполагающих изменение только одного участка кода, DeepSWE требует от ИИ совместного редактирования нескольких файлов, в среднем исправляя более 600 строк кода. Тестирование проводится в изолированных контейнерах с строгими ограничениями по CPU и памяти.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
MyGateTradeStory
1,04M Популярность
#
USIranTalksPostponed
20,38M Популярность
#
IsraelStrikesIranBTCPlunges
60,69K Популярность
#
PredictWorldCup🇺🇸vs🇵🇾
920,3K Популярность
#
TradFiCFDGoldMaster
2,07M Популярность

Закреплено

Карта сайта

智谱GLM-5.2 занимает первое место в DeepSWE открытом исходном коде: решает 44% сложных задач разработки, превосходит основные закрытые модели

Популярные темы

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Закреплено