Конец эры высоких цен на ИИ? Пять структурных причин, по которым токены обязательно подешевеют

Уменьшение отдачи от улучшения производительности, стоимость моделей с открытым исходным кодом составляет лишь десятую часть, специализированные чипы снижают затраты на инференс, нулевые затраты на переключение заставляют пользователей мгновенно переходить, локальные модели могут положить конец подписке в течение 4–5 лет. Пространство для поддержания высоких цен AI-гигантами быстро сужается?
(Предыстория: флагманская модель OpenAI GPT-5.6 Sol эксклюзивно выходит на Cerebras, «беловолосый бог акций» Serenity заявляет о «подтверждении технологии» и входит на дно)
(Дополнение: Citrini Research: избегайте пузыря AI! Названы «5 зон сверхприбылей» для смены капиталов)

Содержание

Toggle

  • Двойной удар: потолок производительности и открытые исходники
  • Революция чипов и нулевые затраты на переключение
  • Локальные модели: конечная угроза для подписочной модели

Инженер-программист Aditya Patadia в своем личном блоге отмечает: Uber за 4 месяца сжег годовой бюджет на AI, Microsoft, Salesforce и GitHub также объявили о контроле расходов сотрудников на AI — это общая проблема всей индустрии, а не вопрос финансовой дисциплины отдельных компаний. Но он прогнозирует, что дорогая структура ценообразования ведущих AI-компаний скоро изменится.

Двойной удар: потолок производительности и открытые исходники

Первое наблюдение Patadia: улучшение производительности моделей происходит с убывающей отдачей. Каждая итерация модели всё ещё приносит прогресс, но его масштаб становится всё меньше, а проблема тренировочных данных структурна — основные AI-лаборатории уже, вероятно, переварили практически все оцифрованные письменные знания человечества, и дальнейшее улучшение тренировочных наборов крайне сложно.

Он приводит в пример одинаковую цену Claude Opus 4.8 и Claude Opus 4.7: когда модель больше не может продемонстрировать значительный скачок между поколениями, причины для повышения цены исчезают, и конкуренция сводится только к снижению цен.

Второе давление исходит от лагеря открытого исходного кода. В качестве примера он приводит GLM-5.2: эта open-source модель по тестам кода уже сравнима с GPT 5.5 и Claude Opus, но стоит лишь десятую часть от GPT 5.5, что даёт ей подавляющее ценовое преимущество.

Вывод Patadia: пока open-source модели продолжают сокращать разрыв в производительности с закрытыми флагманами, пространство для ценообразования закрытых моделей будет постоянно сжиматься.

Революция чипов и нулевые затраты на переключение

Ещё одна линия давления на цены AI исходит от аппаратного уровня. Patadia отмечает, что специализированные чипы для AI, разрабатываемые Cerebras, Groq, Google и другими, переписывают нижнюю границу затрат на инференс. Например, Google TPU дешевле Nvidia H100 GPU на 30–70% по затратам на инференс.

Проще говоря, при одинаковом объёме вычислений правильный чип позволяет сэкономить значительные средства, и эта разница напрямую сжимает нижний предел цен для поставщиков моделей. Помимо чипов, сама архитектура моделей также снижает затраты: механизмы кэширования позволяют не пересчитывать повторяющиеся запросы, архитектура смешанных экспертов MoE (на простом языке — модель вызывает только часть «экспертов» по мере необходимости, не задействуя все нейроны) значительно снижает вычислительные расходы при сохранении точности.

Ещё один момент, который Patadia считает наиболее недооценённым структурным фактором: нулевые затраты на переключение.

Его сравнение прямолинейно: рвы традиционного ПО, такого как Windows, Adobe, Salesforce, заключаются в огромных затратах на замену (часто требуются месяцы миграции); у AI-моделей такого рва нет. Сервисы-шлюзы AI, такие как OpenRouter.ai, позволяют разработчикам переключаться между поставщиками моделей за секунды, а системы могут даже программно автоматически переключаться между разными поставщиками.

Когда конкурента можно заменить мгновенно, любая попытка повышения цены одним из поставщиков немедленно оттолкнёт пользователей.

Локальные модели: конечная угроза для подписочной модели

Самый смелый прогноз Patadia касается локальных моделей. Его оценка: в течение 4–5 лет постоянное повышение производительности чипов и неизбежное снижение цен на память (RAM) позволят потребительским компьютерам и смартфонам выполнять языковые модели локально. Он также прогнозирует, что основные операционные системы будут включать встроенный интерфейс развёртывания моделей, что позволит локальным приложениям напрямую вызывать локальные модели.

Что это означает, если такой сценарий реализуется? Облачные модели останутся необходимыми только для самых сложных задач: анализ юридических документов, рассуждения в длинном контексте, интеграция между базами данных. Повседневные задачи, такие как автодополнение кода, проверка файлов, базовая проверка фактов, будут выполняться локально, без необходимости ежемесячной облачной подписки за $20 или даже $200.

Конечно, Patadia сам отмечает, что это «прогноз», а не установленный факт, и заявляет, что это его «смелые ставки», а время покажет. Но все пять направлений давления — убывающая отдача производительности, рост open-source альтернатив, удешевление за счёт специализированных чипов, нулевые затраты на переключение и локальные модели-заменители — каждое уже подкреплено реальными примерами, а не чистыми мысленными экспериментами.

Если прогноз Patadia верен, это хорошо для пользователей; но для AI-компаний, получающих деньги, это совсем другая история.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено