Відкрита модель з трильйонами параметрів досягла 981 слів/сек, Cerebras тестує KimiK2.6 з прискоренням у 29 разів.

robot
Генерація анотацій у процесі
ME News повідомляє, 20 травня (UTC+8), за даними моніторингу Beating, компанія з виробництва пластинчастих чіпів Cerebras оголосила про запуск у корпоративному тестуванні великої моделі з трильйонами параметрів Kimi K2.6, яка шляхом інтеграції чіпів безпосередньо на цілій 12-дюймовій кремнієвій пластині повністю усуває затримки міжз'єднань традиційної платної комунікації. Стороння оціночна організація Artificial Analysis показала на практиці, що швидкість генерації досягає 981 токенів/с, що в 6,7 раза швидше, ніж у основних хмарних послуг GPU. У завданні з довгим текстом з 10 000 вхідних і 500 вихідних токенів загальний час відповіді скоротився з 163,7 секунд офіційного інтерфейсу Kimi до 5,6 секунд, що в 29 разів швидше. Оскільки ваги моделі розподілені по кількох пластинах для потокової передачі активацій, міжшарова комунікація повністю відбувається всередині мережевої тканини пластини, а її фізична пропускна здатність перевищує NVLink в архітектурі Nvidia NVL72 більш ніж у 200 разів. Завдяки оптимізації розподілених обчислень Kimi K2.6 зберігає ваги у вихідному 4-бітному (4 біти) форматі з низькими втратами, під час обчислень використовує 16-бітні (16 біт) числа з плаваючою комою для підтримки точності, а за допомогою спеціалізованих операторних ядер і спекулятивного декодування врешті досягає роботи в реальному часі. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено