OpenAI виявляє новий метод для скорочення витрат на інференцію вдвічі.

robot
Генерація анотацій у процесі
Згідно з джерелом, знайомим із обговореннями, є раніше не розголошена новина: на початку цього місяця інженери OpenAI повідомили деяким колегам, що, покладаючись на кілька нещодавно розроблених технологій оптимізації, вони знайшли рішення, яке може зменшити вартість логічного висновку (inference) моделі більш ніж удвічі. Після застосування цієї нової технології до сценаріїв, де відвідувачі з безкоштовними/платними обліковими записами використовують ChatGPT, кількість необхідних графічних процесорів (GPU) Nvidia скоротилася до всього лише кількох сотень — надзвичайно низький показник. Наразі невідомо, які конкретні технічні засоби використала OpenAI для досягнення такого значного покращення обчислювальної ефективності. Поширені методи оптимізації в галузі загалом включають: стиснення квантування, кешування ключів-значень, пакетне опрацювання запитів користувачів замість окремого їх обчислення та перенаправлення деяких запитів до легковагових моделей або фрагментів моделі з меншим енергоспоживанням для отримання відповіді.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено