OpenAI находит новый способ сократить вдвое затраты на инференс

robot
Генерация тезисов в процессе
Согласно источнику, знакомому с обсуждениями, есть ранее не раскрытая новость: в начале этого месяца инженеры OpenAI сообщили некоторым коллегам, что, опираясь на несколько недавно разработанных технологий оптимизации, они нашли решение, позволяющее снизить затраты на вывод модели более чем вдвое. После применения этой новой технологии к сценариям, где пользователи с бесплатными/платными аккаунтами используют ChatGPT, количество необходимых графических процессоров Nvidia (GPU) сократилось всего до нескольких сотен — что является чрезвычайно низким показателем. В настоящее время неясно, какие конкретные технические средства использовала OpenAI для достижения такого значительного повышения вычислительной эффективности. Распространенные методы оптимизации в отрасли обычно включают: квантовое сжатие, кэширование ключей и значений, пакетную обработку пользовательских запросов вместо их отдельного вычисления, а также перенаправление некоторых запросов на легковесные модели или сегменты моделей с меньшим энергопотреблением для ответа.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено