Звітуючи, Nous Research запропонували TST: на початкових етапах тренування пакувати сусідні токени та брати їхній середній вхід, на перших 20–40% етапів не читати токени по одному, а прогнозувати токени у пакеті, а потім відновлювати звичайне прогнозування наступного токена. Архітектура залишилась незмінною, це було підтверджено на моделі MoE з 10 мільярдами параметрів, час тренування можна скоротити в 2–3 рази, що є використанням даних для збільшення обчислювальної потужності. Якщо високоякісний текст вичерпаний, залежність від даних може стати слабким місцем. Це дуже схоже на «Beyond Next Token Prediction», є високим ступенем збігу, буде додано посилання.

MeNews

2026-05-17 04:00:22

Генерація анотацій у процесі

МЕ Новини повідомляють, 14 травня (UTC+8), згідно з моніторингом Дангча Beating, що Nous Research опублікувала нову схему попереднього навчання великих моделей — накладання токенів під час тренування (TST).
Ця схема шляхом упаковки та стиснення сусідніх токенів на початкових етапах тренування дозволяє скоротити час попереднього навчання в 2-3 рази при однаковій обчислювальній складності.
TST складається з двох етапів.
У перші 20% до 40% тренування модель більше не зчитує токени по одному, а «упаковує» сусідні токени, беручи їх середнє значення для подачі на вхід, і на виході передбачає, які токени входять до цього пакету (без урахування внутрішнього порядку).
Після цього модель повертається до звичайного прогнозування наступного токена.
Оскільки базова архітектура не змінена, модель, отримана за цим методом, при інференції повністю ідентична стандартній моделі.
Цей метод вже був підтверджений на моделі MoE з максимальною кількістю 100 мільярдів параметрів.
Суть цієї схеми — «замість обчислювальної потужності використовувати дані», тобто швидше витрачати ресурси на обробку тексту, щоб скоротити час обчислень.
Якщо у майбутньому високоякісний текст вичерпаний, ця здатність прискорювати споживання даних може стати слабким місцем.
Крім того, через кілька годин після публікації статті один із читачів зазначив, що механізм TST дуже схожий на стару роботу «Beyond Next Token Prediction», опубліковану у 2024 році.
Команда авторів згодом на Hugging Face визнала, що це «нещасне збіг у дослідженнях (convergent research)», і пообіцяла оновити статтю з додатковими посиланнями.
(Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.92M Популярність
#
CLARITYActPassesSenateCommittee
3.58M Популярність
#
IsraelStrikesIranBTCPlunges
47.3K Популярність
#
#DailyPolymarketHotspot
969.29K Популярність
#
BitcoinVShapedReversalBack
227.15M Популярність

Закріплено

карта сайту

Попереднє навчання прискорено в 2-3 рази, новий план Nous TST потрапив у суперечку через «зіткнення»

Популярні теми

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закріплено