Глибокий огляд DeepSeek V4-Pro: рівень проходження кодування наближається до Opus 4.5, 52% тестувальників підтримують як стандартну модель

Згідно з моніторингом Dongcha Beating, DeepSeek V4 рідко розкриває внутрішні дані про тестування на власних ресурсах. Команда зібрала близько 200 реальних завдань досліджень і розробки від понад 50 інженерів, що охоплюють функціональну розробку, виправлення помилок, рефакторинг і діагностику, з технологічним стеком, що включає PyTorch, CUDA, Rust і C++. Після суворого відбору було залишено 30 завдань як тестовий набір. Прохідний рівень V4-Pro-Max становить 67%, що значно вище за 47% у Sonnet 4.5 і близько до 70% у Opus 4.5, але нижче за 73% у Opus 4.5 Thinking і 80% у Opus 4.6 Thinking. Прохідний рівень для Haiku 4.5 становить лише 13%. Внутрішнім опитуванням з N=85 всі респонденти повідомили, що використовують V4-Pro для агентного кодування у своїй щоденній роботі. 52% вважають, що V4-Pro може слугувати основною моделлю кодування за замовчуванням, 39% схиляються до згоди, і менше 9% не погоджуються. Основні зауваження стосуються базових помилок, неправильного розуміння нечітких підказок і випадкового переобдумування.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити