Нескінченний контекст, багаторівневе управління пам'яттю! Подолати контекстні обмеження великих мовних моделей, таких як ChatGPT

2023-11-02 02:01:24

Першоджерело: AIGC Open Community

Джерело зображення: Створено Unbounded AI

В даний час основні великі мовні моделі, такі як ChatGPT, Llama 2 і Wenxin Yiyan, обмежені через проблему технічної архітектури, і навіть Клод підтримує максимум 100 000 вхідних даних токенів, що дуже незручно для інтерпретації сотень сторінок звітів, книг і паперів.

Щоб вирішити цю дилему, Каліфорнійський університет у Берклі запропонував MemGPT, натхненний механізмом управління пам’яттю операційної системи. Найбільшою інновацією цієї моделі є імітація багаторівневого механізму управління пам’яттю операційної системи та подолання фіксованого контекстного обмеження великих мовних моделей за допомогою передачі даних між різними шарами пам’яті.

Адреса з відкритим вихідним кодом:

Дисертації:

MemGPT в основному містить два типи пам’яті: основний контекст і зовнішній контекст. Основний контекст еквівалентний основній пам’яті операційної системи і являє собою контекстне вікно фіксованої довжини, до якого можуть безпосередньо звертатися великі мовні моделі.

Зовнішній контекст є еквівалентом дискового сховища, яке містить додаткову інформацію поза основним контекстом. MemGPT також надає безліч викликів функцій, дозволяючи великим мовним моделям активно керувати власною пам’яттю без втручання людини.

Ці виклики функцій можуть імпортувати та експортувати дані між основним і зовнішнім контекстами. Виходячи з поточної мети завдання, велика мовна модель може самостійно вирішувати, коли переміщувати контекстну інформацію, щоб краще використовувати обмежені основні контекстні ресурси.

Дослідники оцінили його в кількох тестових середовищах, і результати показали, що MemGPT може ефективно обробляти текстовий контент, який значно перевищує обмеження довжини контексту великих мовних моделей, наприклад, M**emGPT може обробляти документи, які значно перевищують межі контексту GPT-3.5 і GPT-4.

Коли кількість отриманих документів збільшується, продуктивність моделі з фіксованим контекстом обмежена якістю пошуку, тоді як MemGPT може отримати більше документів, викликаючи механізм пагінації, і його точність запитань і відповідей також покращується.

У нещодавно запропонованому багатокроковому завданні вилучення вкладених ключових слів MemGPT успішно виконав завдання, яке вимагало багатострибкових запитів у документах, щоб прийти до рішення, викликаючи зовнішній контекст кілька разів, тоді як точність GPT-3.5 і GPT-4 різко впала до 0, коли кількість вкладених шарів збільшилася.

Основний контекст

Основний контекст у MemGPT еквівалентний «основній пам’яті» в операційній системі, яка є контекстним вікном фіксованої довжини, до якого можуть отримати прямий доступ великі мовні моделі. Основний контекст дослідники розділили на три частини:

Системні інструкції: Ця частина містить основну логіку керування MemGPT, таку як режим виклику функції тощо, з фіксованою довжиною та лише для читання.

Контекст розмови: це черга “першим прийшов і першим пішов”, яка зберігає історію нещодавніх взаємодій з користувачем, доступна лише для читання, і обрізає попередні розмови, коли тривалість перевищена.

Робочий контекст: Це тимчасове сховище для читання-запису, до якого великі мовні моделі можуть автономно записувати інформацію за допомогою викликів функцій.

Важливо відзначити, що ці три частини разом не можуть перевищувати максимальну довжину контексту базової великої мовної моделі.

Зовнішній контекст

Зовнішній контекст містить додаткову інформацію за межами основного контексту, виконуючи роль «дискового сховища» в операційній системі. Зовнішні контексти вимагають явних викликів функцій для імпорту інформації в основний контекст для доступу моделі, включаючи наступні два типи:

Сховище зворотного відстеження: містить повну інформацію про історичні події, еквівалентну нестисненій версії контексту розмови.

Архівне сховище: база даних загального призначення для читання та запису, яка може слугувати переповненим простором для основного контексту для зберігання додаткової інформації. У розмовних програмах сховище архівів може містити додаткову інформацію про роль, уподобання користувача або системи тощо.

Зворотне сховище дозволяє отримувати історичні взаємодії за певний період часу. Під час аналізу документів архівне сховище може підтримувати пошук у більших наборах документів.

Незалежне редагування та пошук

MemGPT активно переміщує дані між рівнями пам’яті за допомогою викликів функцій, згенерованих великими мовними моделями, для досягнення автономного редагування та пошуку. Наприклад, ви можете вирішувати, коли переміщувати інформацію між контекстами, щоб вона відповідала поточним цілям завдання, без участі людини.

Нововведення полягає в детальному описі архітектури пам’яті та методів виклику функцій у системних інструкціях, які допомагають великій мовній моделі навчитися використовувати ці інструменти для управління пам’яттю.

Велика мовна модель може коригувати стратегію виклику на основі зворотного зв’язку. У той же час, коли основного контекстного простору недостатньо, система нагадує великій мовній моделі про необхідність своєчасного збереження важливої інформації і направляє її для управління пам’яттю.

Ланцюжок

У MemGPT різні зовнішні події запускають великі мовні моделі для висновків, включаючи повідомлення користувача, попередження про системну пам’ять, події взаємодії з користувачем тощо.

Виклики функцій можуть надсилати запити на отримання контролю, що дозволяє здійснювати ланцюгові виклики. Наприклад, коли результати розбиті на сторінки, послідовні виклики можуть збирати дані з різних сторінок в основний контекст.

Виклик yield, з іншого боку, призупиняє велику мовну модель до тих пір, поки наступна зовнішня подія не запустить висновок. Цей потік керування, заснований на подіях, організовує плавний зв’язок між керуванням пам’яттю, висновком моделі та взаємодією з користувачем.

Парсер та оптимізація

MemGPT використовує парсер для перевірки викликів функцій, згенерованих великою мовною моделлю, перевірки правильності параметрів тощо. Результат повертається в модель після дзвінка, щоб можна було навчитися коригувати стратегію та зменшити кількість помилок.

Крім того, системні інструкції MemGPT можуть оновлюватися в режимі реального часу, щоб додати до моделі індивідуальні вказівки щодо керування пам’яттю для різних завдань для досягнення безперервної оптимізації.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.