Згідно з моніторингом Dongcha Beating, DeepSeek V4 рідко розкриває внутрішні дані про тестування на власних ресурсах. Команда зібрала близько 200 реальних завдань досліджень і розробки від понад 50 інженерів, що охоплюють функціональну розробку, виправлення помилок, рефакторинг і діагностику, з технологічним стеком, що включає PyTorch, CUDA, Rust і C++. Після суворого відбору було залишено 30 завдань як тестовий набір. Прохідний рівень V4-Pro-Max становить 67%, що значно вище за 47% у Sonnet 4.5 і близько до 70% у Opus 4.5, але нижче за 73% у Opus 4.5 Thinking і 80% у Opus 4.6 Thinking. Прохідний рівень для Haiku 4.5 становить лише 13%. Внутрішнім опитуванням з N=85 всі респонденти повідомили, що використовують V4-Pro для агентного кодування у своїй щоденній роботі. 52% вважають, що V4-Pro може слугувати основною моделлю кодування за замовчуванням, 39% схиляються до згоди, і менше 9% не погоджуються. Основні зауваження стосуються базових помилок, неправильного розуміння нечітких підказок і випадкового переобдумування.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
243.77K Популярність
#
CryptoMarketSeesVolatility
298.14K Популярність
#
IsraelStrikesIranBTCPlunges
33.39K Популярність
#
rsETHAttackUpdate
102.66K Популярність
#
US-IranTalksStall
410.36K Популярність

Закріпити

карта сайту

Глибокий огляд DeepSeek V4-Pro: рівень проходження кодування наближається до Opus 4.5, 52% тестувальників підтримують як стандартну модель

Популярні теми

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити