Згідно з джерелом, знайомим із обговореннями, є раніше не розголошена новина: на початку цього місяця інженери OpenAI повідомили деяким колегам, що, покладаючись на кілька нещодавно розроблених технологій оптимізації, вони знайшли рішення, яке може зменшити вартість логічного висновку (inference) моделі більш ніж удвічі. Після застосування цієї нової технології до сценаріїв, де відвідувачі з безкоштовними/платними обліковими записами використовують ChatGPT, кількість необхідних графічних процесорів (GPU) Nvidia скоротилася до всього лише кількох сотень — надзвичайно низький показник. Наразі невідомо, які конкретні технічні засоби використала OpenAI для досягнення такого значного покращення обчислювальної ефективності. Поширені методи оптимізації в галузі загалом включають: стиснення квантування, кешування ключів-значень, пакетне опрацювання запитів користувачів замість окремого їх обчислення та перенаправлення деяких запитів до легковагових моделей або фрагментів моделі з меншим енергоспоживанням для отримання відповіді.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
200,54K Популярність
#
StrategyBuybackSurges12%
59,73K Популярність
#
IsraelStrikesIranBTCPlunges
67,05K Популярність
#
PredictWorldCupShare20000U
536,05K Популярність
#
TrumpDisclosesOver100MBTCETH
3,83M Популярність

Закріплено

карта сайту

OpenAI виявляє новий метод для скорочення витрат на інференцію вдвічі.

Популярні теми

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Закріплено