Побічний рівень LLM нарешті отримав серйозний прогрес, 1,7 мільярда може наблизитися до ефекту розбиття на слова, війна за словники, ймовірно, застаріє

Переглянути оригінал
CoinNetwork
Nous Research підтверджує, що переваги сегментації можна імітувати чистими байтами, без сегментації великих моделей очікується прорив
Дослідження Nous Research стверджує, що довгострокова залежність великих мовних моделей від токенізаторів може бути замінена в майбутньому. Контрольне тестування з 1,7 мільярдами параметрів показало, що переваги механізму токенізації можна імітувати на рівні чистих байтів за допомогою інженерних засобів. Експерименти показали, що підвищення пропускної здатності у нативній байтовій моделі та введення морфологічних меж значно зменшують різницю з моделями токенізації; при однаковій обчислювальній потужності імітація стиснення підвищує обсяг обробки градієнтів за один крок і є основним джерелом внеску. Одночасно накладання меж підслов на вхідні байти створює довгострокове узагальнююче упередження, яке не розкриває майбутню інформацію. Хоча синергетичний ефект більшої кількості параметрів ще потребує підтвердження, при 1,7 мільярда параметрів обсяг словника та передбачення наступного підслова мають обмежені переваги. Це відкриває шлях для великих моделей без токенізації, і майбутня архітектура має зосередитися на підвищенні пропускної здатності та явно інтегрувати морфологічні прерогативи без розкриття майбутньої інформації.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено