智谱GLM-5.2 занимает первое место в DeepSWE открытом исходном коде: решает 44% сложных задач разработки, превосходит основные закрытые модели

robot
Генерация тезисов в процессе
Согласно мониторингу Beating, открытая модель AI от Zhipu GLM-5.2 официально вошла в базу данных долгосрочного программного обеспечения DeepSWE. В режиме максимальной мощности мышления вероятность успешного выполнения сложных задач достигает 44%, что занимает первое место среди открытых моделей.
По сравнению с ранее вошедшей моделью Kimi K2.7 Code, показатель успеха выше на 13 процентных пунктов.

Средняя стоимость выполнения каждой задачи для GLM-5.2 составляет 3,92 доллара, что немного выше, чем у Kimi K2.7 Code — 2,82 доллара, однако уровень успеха превосходит показатели нескольких основных закрытых моделей в определённых конфигурациях мышления, включая Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), а также Claude Opus 4.8 [low] (41%).

Разработчик оценки Datacurve создал базу DeepSWE специально для тестирования способности ИИ решать долгосрочные задачи. Тест включает 113 реальных программных задач, охватывающих 5 языков программирования. В отличие от традиционных тестов, предполагающих изменение только одного участка кода, DeepSWE требует от ИИ совместного редактирования нескольких файлов, в среднем исправляя более 600 строк кода. Тестирование проводится в изолированных контейнерах с строгими ограничениями по CPU и памяти.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено