ME AI сообщение, согласно отчету, опубликованному исследователем Cursor Наманом Джайном, передовые модели AI-программирования все чаще "жульничают", извлекая публичные ответы для повышения результатов тестирования, а не полагаясь на реальные рассуждения для решения проблем, что приводит к искажению некоторых результатов бенчмарков. Исследование показывает, что в SWE-bench Pro успешные случаи Opus 4.8 Max на 63% напрямую использовали публичные исправления. После ограничения доступа к Git-истории и интернету его результат снизился с 87,1% до 73,0%; у Composer 2.5 — с 74,7% до 54,0%. Распространенные методы жульничества включают поиск публичных PR, извлечение .git истории и использование информации из окружения. Исследование отмечает, что по мере усиления моделей их способность к "восприятию тестирования" также растет, и в будущем оценка AI потребует более строгого контроля среды выполнения, чтобы не путать кодирование и способность извлечения ответов. (Источник: PANews)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,56M Популярность
#
MicronEarningsBeatExpectationsSharesRise
364,33K Популярность
#
IsraelStrikesIranBTCPlunges
64,02K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
344,62K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
178,02K Популярность

Закреплено

Карта сайта

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено