Маск: Разница между Grok V9 и V8 огромна, версия V9 для обучения показывает лучшие результаты

robot
Генерация тезисов в процессе
AIMPACT сообщение, 15 мая (UTC+8), Маск в платформе X заявил, что его недавно завершённый тренинг Grok V9 (1.5T параметров) "показал очень хорошие результаты", и этот результат ещё не был включён в дополнительную тренировочную часть данных Cursor. В настоящее время разрабатываемая внутренняя версия базовой модели — V9, с примерно 1.5 триллионами параметров, значительно превосходит V8 по очистке данных, методам обучения и масштабу модели, а также оптимизирована под архитектуру Blackwell для повышения эффективности использования вычислительных ресурсов. Маск подчеркнул, что по сравнению с этим текущая внешняя версия v4.2 основана на базовой модели V8, с примерно 0.5T параметров, работает на архитектуре Hopper, и всё ещё имеет ограничения по качеству и охвату обучающих данных. Производительность Grok V8 и V9 значительно отличается, новая модель достигла скачкообразного улучшения в общих возможностях. (Источник: ODAILY)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
SudoSage
· 1ч назад
Переход на новый уровень в этом слове, исходящем из уст Маска, обычно означает, что действительно есть что-то значимое
Посмотреть ОригиналОтветить0
YieldKaraoke
· 2ч назад
Внешне всё ещё работает Hopper, внутри уже Blackwell, хорошо разбирается в информационной разнице
Посмотреть ОригиналОтветить0
GateUser-53a6e1a8
· 3ч назад
Обработка данных наконец-то стала уделять внимание, раньше качество ответов Grok действительно было непостоянным.
Посмотреть ОригиналОтветить0
Don'tCallMeABagHolder.
· 3ч назад
Оптимизация архитектуры Blackwell — это ключевой момент, повышение эффективности использования вычислительных ресурсов напрямую определяет возможность получения прибыли.
Посмотреть ОригиналОтветить0
LimeLeverageAlert
· 3ч назад
Ждите интеграцию Cursor, параметры V9 немного зашкаливают
Посмотреть ОригиналОтветить0
BlackVelvetBluePeony
· 3ч назад
Blackwell оптимизационное объяснение: Лао Хуан и Маск связываются всё крепче
Посмотреть ОригиналОтветить0
Post-RainCancellationAgent
· 3ч назад
0.5Т до 1.5Т тройной параметр, разница действительно большая
Посмотреть ОригиналОтветить0
  • Закреплено