Δ-Mem:ефективна онлайн-пам’ять для великих мовних моделей

robot
Генерація анотацій у процесі
ME News Новини, 16 травня (UTC+8), дослідники запропонували Δ-Mem, ефективну онлайн-систему пам’яті, спеціально розроблену для великих мовних моделей. Ця система зменшує споживання пам’яті, зберігаючи лише інкрементальні зміни активізації моделі, а не повний стан активізації. Експерименти показали, що Δ-Mem може зменшити використання пам’яті до 70%, при цьому майже не погіршуючи якість вихідних даних моделі. Цей метод сприяє розгортанню та запуску масштабних мовних моделей у ресурсозалежних середовищах, підвищуючи їхню можливість для онлайн-розрахунків та безперервного навчання. (Джерело: AiHot)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
PickingUpAirdropsInTheFog
· 3год тому
Підвищення здатності до безперервного навчання недооцінюється, це дуже важливо для персоналізованих моделей.
Переглянути оригіналвідповісти на0
InvisibleMarketMaker
· 3год тому
70% зменшення пам’яті дійсно вражаюче, але чи не стане обчислювальні витрати на інкрементне оновлення у реальному часі новим вузьким місцем?
Переглянути оригіналвідповісти на0
ColdStartUnderTheAurora
· 3год тому
Нарешті хтось серйозно взявся за проблему пам’ятного бар’єру LLM, чекаю на подальші роботи.
Переглянути оригіналвідповісти на0
HotAirBalloonCrossingMountains
· 3год тому
Відчуття та розріджена увага можуть використовуватися разом, подвійне стиснення.
Переглянути оригіналвідповісти на0
PettyLp
· 3год тому
Онлайнова система пам’яті дуже точно визначена, вона заповнює прогалину на етапі дедукції.
Переглянути оригіналвідповісти на0
CheckTheBlockchainBefore
· 3год тому
Як сумісність методів ефективної тонкої настройки, таких як Curious та LoRA.
Переглянути оригіналвідповісти на0
ProtocolPaladin
· 3год тому
Якщо ця сфера стане відкритим кодом, спільнота зможе придумати багато цікавих ідей.
Переглянути оригіналвідповісти на0
PerpPessimist
· 4год тому
Який набір даних використовується для експериментів? GLUE чи більш складні завдання з логічним мисленням.
Переглянути оригіналвідповісти на0
TokenomicsMechanic
· 4год тому
70% — це максимум чи середнє значення? Чи суттєво відрізняється продуктивність при різних масштабах моделей.
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено