Gartner: к 2030 году расходы на выполнение выводов с помощью крупных языковых моделей снизятся более чем на 90%

2026-04-01 01:48:47

Согласно Gartner, к 2030 году стоимость инференса на крупной языковой модели (LLM) с триллионом параметров будет снижена более чем на 90% по сравнению с 2025 годом, что позволит провайдерам генеративного ИИ (GenAI) существенно сократить расходы.

AI-токен — это единица данных, которую обрабатывает генеративно-искусственный интеллект модель. В рамках данного анализа один токен соответствует 3,5 байтам данных, то есть примерно 4 символам.

Старший аналитик Gartner Уилл Зоммер сказал: «Снижение этих затрат будет обусловлено целым рядом факторов, включая повышение эффективности полупроводников и инфраструктуры, инновации в дизайне моделей, рост загрузки чипов, более широкое использование специализированных чипов для инференса под конкретные сценарии, а также применение пограничных (edge) устройств в конкретных условиях».

Под влиянием этих тенденций Gartner прогнозирует, что к 2030 году экономическая эффективность LLM по сравнению с ранними моделями аналогичного масштаба, разработанными в 2022 году, будет выше вплоть до 100 раз.

Результаты прогнозной модели разделены на две группы полупроводниковых сценариев:

Сценарий на переднем крае: модели обрабатывают симулированные данные на основе передовых чипов.

Традиционный смешанный сценарий: модели обрабатывают типичную комбинацию существующих полупроводников; данная комбинация оценивается с опорой на прогнозные данные консалтинговой компании Gartner.

В «смешанном» прогнозном сценарии рассчитанные затраты существенно выше, чем в «передовом» сценарии.

Прогнозные сценарии затрат на инференс универсального ИИ

Снижение расходов не сделает передовые интеллектуальные технологии повсеместными

Однако снижение цены токенов у провайдеров услуг генеративного ИИ не будет полностью перекладываться на корпоративных клиентов. Кроме того, количество токенов, необходимых для передовых интеллектуальных приложений, будет намного превышать объем, требуемый текущими типовыми приложениями. Например, число токенов, необходимых агентным моделям для выполнения каждой задачи, составляет от 5 до 30 раз больше, чем у стандартных чат-ботов генеративного ИИ, и они способны выполнять больше задач, чем те, которые человек решает с помощью генеративного ИИ.

Хотя более низкая стоимость токена позволит более продвинутому генеративному ИИ обладать более сильными возможностями, эти улучшения приведут к существенному росту потребности в токенах. Поскольку скорость расходования токенов выше скорости снижения их стоимости, общие расходы на инференс, как ожидается, вырастут.

Зоммер заявил: «Руководителям по продукту не следует смешивать обесценивание товарных токенов с демократизацией передового инференса. По мере того как затраты на товарный интеллект будут стремиться к нулю, вычислительные ресурсы и системы, необходимые для поддержки расширенного инференса, по-прежнему будут оставаться крайне дефицитными. Тем руководителям по продукту, которые сегодня маскируют проблемы неэффективности архитектуры дешевыми токенами, завтра будет сложно масштабировать автономность».

Платформа, способная согласованно обрабатывать рабочие нагрузки для разных моделей, будет иметь ценность. Обычные, высокочастотные задачи должны передаваться более эффективным небольшим языковым моделям, ориентированным на конкретные предметные области, поскольку эти модели при стоимости, составляющей лишь небольшую часть стоимости универсальных решений, смогут лучше выполнять задачи конкретных рабочих процессов. Высокозатратный инференс моделей уровня переднего края должен быть строго ограничен и использоваться специально для высокоприбыльных, сложных задач».

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков