V4-Pro внутрішнє оцінювання: коефіцієнт проходження кодування наближається до Opus4.5, 52% внутрішніх тестувальників визнають його моделлю за замовчуванням.

robot
Генерація анотацій у процесі
ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу Dongcha Beating, V4 вперше публічно оприлюднив внутрішні дані dogfooding. Команда зібрала близько 200 реальних завдань розробки від понад 50 інженерів, що охоплюють розробку функцій, виправлення помилок, рефакторинг та діагностику. Технологічний стек включає PyTorch, CUDA, Rust, C++. Після строгого відбору залишилося 30 завдань як тестовий набір. V4-Pro-Max має рівень проходження 67%, що значно вище за 47% у Sonnet 4.5, близько до 70% у Opus 4.5, але нижче за 73% у Opus 4.5 Thinking та 80% у Opus 4.6 Thinking. Haiku 4.5 має лише 13% проходження. В опитуванні N=85 всі респонденти використовують V4-Pro для agentic coding у повсякденній роботі. 52% вважають V4-Pro моделлю кодування за замовчуванням, 39% схильні погоджуватися, менше 9% заперечують. Основні проблеми включають низькорівневі помилки, неправильне тлумачення нечітких prompt'ів та іноді надмірне обдумування. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено