Gartner: до 2030 року витрати на логіку в великих мовних моделях знизяться більш ніж на 90%

MaticHoleFiller · 2026-04-01T01:48:47+00:00

Згідно з Gartner, до 2030 року витрати на виконання розрахунків у великій мовній моделі (LLM) з трильйонами параметрів знизяться більш ніж на 90% порівняно з 2025 роком, що дозволить постачальникам генеративного штучного інтелекту (GenAI) значно економити кошти.Токени ШІ — це одиниці даних, які обробляють моделі генеративного штучного інтелекту. У цьому аналізі один токен відповідає приблизно 3.5 байтам даних, тобто близько 4 символам.Вілл Соммер, старший аналітик Gartner, зазначив: «Зниження цих витрат зумовлене підвищенням ефективності напівпровідників і інфраструктури, інноваціями у дизайні моделей, підвищенням використання чіпів для спеціальних цілей, таких як спеціалізовані для розрахунків на основі призначення, а також застосуванням периферійних пристроїв у конкретних сценаріях».З огляду на ці тенденції, Gartner прогнозує, що до 2030 року великий

MaticHoleFiller

2026-04-01 01:48:47

За даними Gartner, до 2030 року вартість виконання інференсу на великій мовній моделі (LLM) із трильйонами параметрів буде знижено більш ніж на 90% порівняно з 2025 роком, що дасть змогу провайдерам генеративного штучного інтелекту (GenAI) значно заощаджувати кошти.

AI-токени — це одиниці даних, які обробляє генеративна модель штучного інтелекту. У цьому аналізі один токен дорівнює 3,5 байта даних, тобто приблизно 4 символам.

Старший аналітик Gartner Вілл Зоммер сказав: “Це зниження витрат відбуватиметься завдяки багатьом факторам, зокрема підвищенню ефективності напівпровідників і інфраструктури, інноваціям у дизайні моделей, збільшенню завантаженості чипів, ширшому використанню спеціалізованих інференс-чипів для конкретних сценаріїв, а також застосуванню edge-пристроїв у певних ситуаціях”.

Через вплив цих тенденцій Gartner прогнозує, що до 2030 року рентабельність великих мовних моделей буде до 100 разів вищою, ніж у ранніх моделей такого ж масштабу, розроблених у 2022 році.

Результати прогнозної моделі розділено на дві групи напівпровідникових сценаріїв:

Сценарій на передовому рівні: модель обробляє змодельовані дані на базі найсучасніших чипів.

Традиційний змішаний сценарій: модель обробляє типову комбінацію наявних напівпровідників, яка оцінюється з урахуванням прогнозних даних консалтингової компанії Gartner.

У “змішаному” прогнозному сценарії розрахована вартість суттєво вища, ніж у “передовому”.

Прогнозні сценарії витрат на інференс загального штучного інтелекту

Зниження витрат не означає поширення передових інтелектуальних технологій

Втім, зниження ціни токенів у сервіс-провайдерів генеративного штучного інтелекту не буде повністю перекладено на корпоративних клієнтів. Крім того, кількість токенів, потрібна для передових застосувань інтелекту, буде значно перевищувати обсяги, необхідні для нинішніх типових застосувань. Наприклад, кількість токенів, потрібних для виконання кожного завдання агентними моделями, становить від 5 до 30 разів більше, ніж для стандартних генеративних чат-ботів штучного інтелекту, і вони здатні виконувати більше завдань, ніж можуть зробити люди, використовуючи генеративний штучний інтелект.

Хоча нижча вартість одиниці токена надасть більш просунутому генеративному штучному інтелекту сильніші можливості, ці досягнення призведуть до суттєвого зростання попиту на токени. Оскільки швидкість витрачання токенів є вищою, ніж швидкість зниження їхньої вартості, загальні витрати на інференс, імовірно, зростатимуть.

Зоммер зазначив: “Директорам з продуктів не варто змішувати знецінення токенів після їх товаризації з демократизацією передового інференсу. Коли витрати на товаризовані інтелектуальні технології наближатимуться до нуля, обчислювальні ресурси та системи, необхідні для підтримки передового інференсу, все одно залишатимуться вкрай дефіцитними. Ті директори з продуктів, які сьогодні закривають проблеми низької архітектурної ефективності дешевими токенами, завтра не зможуть масштабувати автономність у великих масштабах”.

Платформа, яка зможе координовано обробляти робочі навантаження в різних моделях, отримуватиме цінність. Звичайні, високочастотні завдання мають розподілятися між більш ефективними невеликими мовними моделями, орієнтованими на конкретні домени, адже вони здатні виконувати завдання для конкретних робочих процесів із кращою якістю за умови, що їхня вартість становить лише незначну частку вартості універсальних рішень. Високовартісний інференс рівня “на передовому рівні” має бути строго обмеженим і використовуватися винятково для високоприбуткових, складних інференс-завдань.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків