ME News сообщает, 24 апреля (UTC+8), по данным мониторинга Beating, V4 впервые публично раскрыл внутренние данные dogfooding. Команда собрала около 200 реальных задач разработки от более чем 50 инженеров, охватывающих разработку функций, исправление ошибок, рефакторинг и диагностику, с технологическим стеком, включающим PyTorch, CUDA, Rust, C++. После строгого отбора было сохранено 30 задач для оценочного набора. Процент прохождения V4-Pro-Max составил 67%, что значительно выше 47% у Sonnet 4.5, близко к 70% у Opus 4.5, но ниже 73% у Opus 4.5 Thinking и 80% у Opus 4.6 Thinking. Процент прохождения Haiku 4.5 составил всего 13%. В ходе внутреннего опроса N=85 все респонденты использовали V4-Pro для агентного кодирования в повседневной работе. 52% считают V4-Pro подходящей основной моделью кодирования по умолчанию, 39% склонны к одобрению, менее 9% отрицательны. Основные замечания включают низкоуровневые ошибки, неверное понимание нечетких промптов и случайные случаи чрезмерного обдумывания. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateCompletesDividendDistribution
526,78K Популярность
#
CirclePlunges17%
6,51M Популярность
#
IsraelStrikesIranBTCPlunges
67,51K Популярность
#
PredictWorldCupShare20000U
157,98K Популярность
#
GateCardPointsSystemLaunched
116,79K Популярность

Закреплено

Карта сайта

V4-Pro внутренняя оценка: уровень прохождения кодирования приближается к Opus 4.5, 52% внутренних тестеров признали его моделью по умолчанию.

Популярные темы

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закреплено