Google знайшов спосіб зробити локальний ШІ до 3 разів швидше — без необхідності нової апаратури

Коротко

  • Google випустила проектори Multi-Token Prediction (MTP) для Gemma 4, що забезпечує до 3-кратного прискорення при виведенні без будь-якого погіршення якості результату.
  • Техніка — під назвою спекулятивне декодування — використовує легкий “проектор” модель для передбачення кількох токенів одночасно, які основна модель потім перевіряє у паралелі, обходячи вузьке місце — обробку по одному токену.
  • Проектори MTP доступні на Hugging Face, Kaggle та Ollama під тією ж ліцензією Apache 2.0, що й Gemma 4, і працюють з інструментами, такими як vLLM, MLX і SGLang.

Запуск моделі штучного інтелекту на власному комп’ютері — чудово, поки це не стає проблемою. Обіцянка — приватність, відсутність підписки та ніяких даних, що залишаються на вашому пристрої. Реальність для більшості — спостерігати за мерехтінням курсору п’ять секунд між реченнями. Ця вузька частина має назву: швидкість виведення. І вона не залежить від того, наскільки розумна модель. Це апаратна проблема. Стандартні моделі штучного інтелекту генерують текст по одному фрагменту слова — так званому токену. Апарат має переміщати мільярди параметрів з пам’яті до обчислювальних блоків, щоб створити кожен окремий токен. Це повільно за задумом. На споживчому обладнанні це боляче.

Обхідний шлях, до якого вдаються більшість — запуск менших, слабших моделей або сильно стиснутих версій, званих квантизованими моделями, що жертвують частиною якості заради швидкості. Жоден з цих варіантів не ідеальний. Ви отримуєте щось, що працює, але це не та модель, яку ви справді хотіли. Зараз Google має іншу ідею. Компанія щойно випустила проектори Multi-Token Prediction (MTP) для своєї серії відкритих моделей Gemma 4 — техніку, яка може забезпечити до 3-кратного прискорення без будь-яких втрат у якості або здатності до логічного мислення.

Підхід називається спекулятивне декодування, і він існує як концепція вже кілька років. Дослідники Google опублікували основний документ ще у 2022 році. Ідея не стала масовою до тепер, оскільки для її масштабного застосування потрібна була правильна архітектура.

Ось короткий опис того, як це працює. Замість того, щоб змушувати потужну модель робити всю роботу самотужки, її поєднують із маленькою моделлю — “проектором”. Проектор швидкий і дешевий — він передбачає кілька токенів одночасно швидше, ніж основна модель здатна створити один. Потім велика модель перевіряє всі ці здогади за один прохід. Якщо здогади правильні, ви отримуєте всю послідовність за ціну одного проходу. За словами Google, “якщо цільова модель погоджується з проектом, вона приймає всю послідовність за один прохід — і навіть генерує додатковий токен сама у процесі.” Нічого не жертвується: велика модель — наприклад, Gemma 4 з 31 мільярдом параметрів — все ще перевіряє кожен токен, і якість вихідних даних залишається ідентичною. Ви просто використовуєте вільну обчислювальну потужність, яка раніше просто сиділа без діла під час повільних частин.  Google каже, що проектори використовують спільний кеш KV цільової моделі — структуру пам’яті, яка зберігає вже оброблений контекст — тому вони не витрачають час на повторне обчислення того, що вже знає велика модель. Для менших моделей, розроблених для телефонів і Raspberry Pi, команда навіть створила ефективну техніку кластеризації для додаткового скорочення часу генерації. Це не єдина спроба світу ШІ у паралельній генерації тексту. Моделі мов на основі дифузії — наприклад Mercury від Inception Labs — застосовували зовсім інший підхід: замість передбачення одного токена за раз вони починали з шуму і ітеративно уточнювали весь вихід. Це швидко на папері, але дифузійні LLM важко зрівняти з якістю традиційних трансформерів, тому залишаються більше дослідницьким інтересом, ніж практичним інструментом. Спекулятивне декодування відрізняється тим, що воно не змінює базову модель. Це оптимізація сервісу, а не заміна архітектури. Та сама Gemma 4, яку ви вже запускали, стає швидшою. Практично це має реальний ефект. За даними Google, модель Gemma 4 з 26 мільярдами параметрів, запущена на настільному GPU Nvidia RTX Pro 6000, отримує приблизно вдвічі більше токенів за секунду з увімкненим проектором MTP. На Apple Silicon розміри пакетів з 4 до 8 запитів забезпечують приблизно 2,2-кратне прискорення. Не зовсім 3-кратний максимум у кожному випадку, але все ж суттєва різниця між “ледь працює” і “справді швидко”.

Контекст тут важливий. Коли китайська модель DeepSeek шокувала ринок у січні 2025 року — знизивши капіталізацію Nvidia на 600 мільярдів доларів за один день — головний урок був у тому, що ефективність може бути сильнішою за просто додавання обчислювальної потужності. Розумніше працювати, ніж викидати більше обладнання. Проектор MTP від Google — ще один крок у цьому напрямку, орієнтований саме на споживача. Вся індустрія ШІ зараз — це трикутник, що враховує виведення, навчання і пам’ять. Кожен прорив у будь-якій з цих областей зазвичай підсилює або шокує всю екосистему. Підхід DeepSeek до навчання (створення потужних моделей на меншому обладнанні) був одним із прикладів, а документ Google TurboQuant (зменшення пам’яті ШІ без втрати якості) — іншим. Обидва викликали коливання на ринку, коли компанії намагалися зрозуміти, що робити далі. Google каже, що проектор відкриває “покращену швидкість реагування: різко зменшує затримку для майже реального часу чатів, іммерсивних голосових додатків і агентських робочих процесів” — задач, що вимагають низької затримки, щоб бути корисними. Використання швидко зосереджується: локальний асистент для кодування, що не затримується; голосовий інтерфейс, що реагує швидше, ніж ви забули, що запитали; агентський робочий процес, що не змушує чекати три секунди між кроками. Все це — на обладнанні, яке у вас вже є. Проектори MTP вже доступні на Hugging Face, Kaggle і Ollama під ліцензією Apache 2.0. Вони працюють з vLLM, MLX, SGLang і Hugging Face Transformers з коробки.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити