V4-Pro внутренняя оценка: уровень прохождения кодирования приближается к Opus 4.5, 52% внутренних тестеров признали его моделью по умолчанию.

robot
Генерация тезисов в процессе
ME News сообщает, 24 апреля (UTC+8), по данным мониторинга Beating, V4 впервые публично раскрыл внутренние данные dogfooding. Команда собрала около 200 реальных задач разработки от более чем 50 инженеров, охватывающих разработку функций, исправление ошибок, рефакторинг и диагностику, с технологическим стеком, включающим PyTorch, CUDA, Rust, C++. После строгого отбора было сохранено 30 задач для оценочного набора. Процент прохождения V4-Pro-Max составил 67%, что значительно выше 47% у Sonnet 4.5, близко к 70% у Opus 4.5, но ниже 73% у Opus 4.5 Thinking и 80% у Opus 4.6 Thinking. Процент прохождения Haiku 4.5 составил всего 13%. В ходе внутреннего опроса N=85 все респонденты использовали V4-Pro для агентного кодирования в повседневной работе. 52% считают V4-Pro подходящей основной моделью кодирования по умолчанию, 39% склонны к одобрению, менее 9% отрицательны. Основные замечания включают низкоуровневые ошибки, неверное понимание нечетких промптов и случайные случаи чрезмерного обдумывания. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено