Согласно источнику, знакомому с обсуждениями, есть ранее не раскрытая новость: в начале этого месяца инженеры OpenAI сообщили некоторым коллегам, что, опираясь на несколько недавно разработанных технологий оптимизации, они нашли решение, позволяющее снизить затраты на вывод модели более чем вдвое. После применения этой новой технологии к сценариям, где пользователи с бесплатными/платными аккаунтами используют ChatGPT, количество необходимых графических процессоров Nvidia (GPU) сократилось всего до нескольких сотен — что является чрезвычайно низким показателем. В настоящее время неясно, какие конкретные технические средства использовала OpenAI для достижения такого значительного повышения вычислительной эффективности. Распространенные методы оптимизации в отрасли обычно включают: квантовое сжатие, кэширование ключей и значений, пакетную обработку пользовательских запросов вместо их отдельного вычисления, а также перенаправление некоторых запросов на легковесные модели или сегменты моделей с меньшим энергопотреблением для ответа.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateCompletesDividendDistribution
126,19K Популярность
#
StrategyBuybackSurges12%
6,97M Популярность
#
IsraelStrikesIranBTCPlunges
67,14K Популярность
#
PredictWorldCupShare20000U
524,06K Популярность
#
TrumpDisclosesOver100MBTCETH
3,83M Популярность

Закреплено

Карта сайта

OpenAI находит новый способ сократить вдвое затраты на инференс

Популярные темы

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Закреплено