ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу Dongcha Beating, V4 вперше публічно оприлюднив внутрішні дані dogfooding. Команда зібрала близько 200 реальних завдань розробки від понад 50 інженерів, що охоплюють розробку функцій, виправлення помилок, рефакторинг та діагностику. Технологічний стек включає PyTorch, CUDA, Rust, C++. Після строгого відбору залишилося 30 завдань як тестовий набір. V4-Pro-Max має рівень проходження 67%, що значно вище за 47% у Sonnet 4.5, близько до 70% у Opus 4.5, але нижче за 73% у Opus 4.5 Thinking та 80% у Opus 4.6 Thinking. Haiku 4.5 має лише 13% проходження. В опитуванні N=85 всі респонденти використовують V4-Pro для agentic coding у повсякденній роботі. 52% вважають V4-Pro моделлю кодування за замовчуванням, 39% схильні погоджуватися, менше 9% заперечують. Основні проблеми включають низькорівневі помилки, неправильне тлумачення нечітких prompt'ів та іноді надмірне обдумування. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
534,41K Популярність
#
CirclePlunges17%
4,16M Популярність
#
IsraelStrikesIranBTCPlunges
67,51K Популярність
#
PredictWorldCupShare20000U
163,75K Популярність
#
GateCardPointsSystemLaunched
120,19K Популярність

Закріплено

карта сайту

V4-Pro внутрішнє оцінювання: коефіцієнт проходження кодування наближається до Opus4.5, 52% внутрішніх тестувальників визнають його моделлю за замовчуванням.

Популярні теми

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закріплено