Дослідження Nous Research стверджує, що довгострокова залежність великих мовних моделей від токенізаторів може бути замінена в майбутньому. Контрольне тестування з 1,7 мільярдами параметрів показало, що переваги механізму токенізації можна імітувати на рівні чистих байтів за допомогою інженерних засобів. Експерименти показали, що підвищення пропускної здатності у нативній байтовій моделі та введення морфологічних меж значно зменшують різницю з моделями токенізації; при однаковій обчислювальній потужності імітація стиснення підвищує обсяг обробки градієнтів за один крок і є основним джерелом внеску. Одночасно накладання меж підслов на вхідні байти створює довгострокове узагальнююче упередження, яке не розкриває майбутню інформацію. Хоча синергетичний ефект більшої кількості параметрів ще потребує підтвердження, при 1,7 мільярда параметрів обсяг словника та передбачення наступного підслова мають обмежені переваги. Це відкриває шлях для великих моделей без токенізації, і майбутня архітектура має зосередитися на підвищенні пропускної здатності та явно інтегрувати морфологічні прерогативи без розкриття майбутньої інформації.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
USIranDraftDeal
282.91K Популярність
#
IsraelStrikesIranBTCPlunges
49.13K Популярність
#
2gGoldEvery10Minutes
3.04M Популярність
#
HYPEMarketCapSurpassesDOGE
12.63M Популярність
#
PlatinumCardCreatorExclusive
153.57K Популярність

Закріплено

карта сайту

Побічний рівень LLM нарешті отримав серйозний прогрес, 1,7 мільярда може наблизитися до ефекту розбиття на слова, війна за словники, ймовірно, застаріє

Популярні теми

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

PlatinumCardCreatorExclusive

Закріплено