Архітектура TwoTower від NVIDIA підвищує ефективність великих моделей за допомогою паралельних моделей на 30B параметрів.

Згідно з моніторингом Beating, NVIDIA відкрила вихідний код дискретної текстової дифузійної архітектури Nemotron-Labs-TwoTower, спрямованої на вирішення проблеми швидкості генерації великих моделей, які можуть виробляти лише одне слово за раз. Попередні текстові дифузійні моделі змушували єдину мережу балансувати між однонаправленим розумінням контексту та двонаправленою паралельною корекцією помилок в гонитві за паралельним виведенням, що призводило до значного погіршення когнітивних здібностей моделі. Архітектура TwoTower використовує розділений дизайн: з одного боку, вона повністю заморожує попередньо навчену авторегресивну велику модель як «контекстну вежу лише для читання», щоб зберегти повні здібності до міркування та здорового глузду; з іншого боку, вона окремо навчає «вежу для знешумлення письма», яка зчитує контекстну інформацію через крос-увагу на рівні шарів. Вежа письма використовує механізм «розкриття довіри», віддаючи пріоритет написанню слів з високою достовірністю при прогнозуванні блоку, поступово заповнюючи решту прогалин для досягнення паралельного письма від легкого до складного. Цей дизайн адаптується на моделі змішаної архітектури рівня 30B (Mamba-Transformer MoE) з використанням лише 1/12 даних попереднього навчання базової моделі (2,1T токенів), зберігаючи 98,7% якості, одночасно покращуючи фактичну швидкість генерації в 2,42 рази без додаткового навантаження на кеш пам'яті. Однак через необхідність утримувати обидві вежі в пам'яті статичне використання пам'яті моделі зросло, а також спостерігається незначне погіршення точності в надзвичайно складних кодових та математичних міркуваннях.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено