Модель с открытым исходным кодом с триллионами параметров показала 981 слово/сек, Cerebras тестирует KimiK2.6, ускорение в 29 раз.

robot
Генерация тезисов в процессе

ME News сообщает, 20 мая (UTC+8), по данным мониторинга Dongcha Beating, компания Cerebras, занимающаяся производством чипов на пластинах, объявила о запуске в корпоративном тестировании большой модели с триллионом параметров Kimi K2.6. За счет прямой интеграции чипов на цельной 12-дюймовой кремниевой пластине полностью устранены задержки межсоединений, характерные для традиционной платной коммуникации.

Согласно практическим тестам стороннего оценщика Artificial Analysis, скорость генерации достигает 981 токен/с, что в 6,7 раза быстрее, чем у主流ных облачных сервисов на GPU. В задаче длинного текста с 10 000 входных и 500 выходных токенов общее время отклика сократилось с 163,7 секунды (официальный интерфейс Kimi) до 5,6 секунды, что обеспечивает ускорение в 29 раз.

Поскольку веса модели распределены по нескольким пластинам для потоковой передачи активаций, межслойная связь полностью осуществляется внутри сетчатой структуры пластины. Физическая пропускная способность связи более чем в 200 раз превышает NVLink в архитектуре NVIDIA NVL72. В сочетании с оптимизацией распределенных вычислений Kimi K2.6 использует исходные 4-битные веса для малопотерного хранения, при вычислениях применяет 16-битные числа с плавающей запятой для сохранения точности, а также использует пользовательские ядра операторов и спекулятивное декодирование для достижения работы в реальном времени.

(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено