Недавно я читал исследование от a16z, в котором есть очень интересная метафора — LLM фактически живёт в вечном настоящем, как главный герой фильма «Мементо». После обучения модель замораживается, новая информация не поступает, ей остаётся только полагаться на чат-истории, системы поиска и другие внешние плагины для экстренной поддержки. Но действительно ли этого достаточно?



Все больше исследователей считают, что этого недостаточно. Контекстуальное обучение действительно полезно, но по сути оно — это поиск, а не обучение. Представьте себе бесконечный шкаф с файлами, в котором можно найти всё, но при этом он никогда не был вынужден понять, сжать или по-настоящему внутренне усвоить новые знания. Для тех вопросов, которые требуют настоящего открытия — например, совершенно новые математические доказательства, противостоящие сценарии или те знания, которые слишком скрытны и не могут быть выражены словами — только поиск явно недостаточен.

Именно поэтому направление постоянного обучения становится всё более актуальным. Основной вопрос очень прост: **где происходит сжатие?** Текущие системы перекладывают сжатие на подсказки, RAG-процессы, оболочки интеллектуальных агентов. Но механизм, который делает LLM мощной — сжатие с потерями и обучение на параметрах — отключается в момент развертывания.

Научное сообщество примерно делится на три направления. Одно — обучение в контексте, где команда занимается оптимизацией поисковых цепочек, управлением контекстом, многоагентными архитектурами. Это самое зрелое направление, инфраструктура уже проверена, но потолок — длина контекста. Другой — обучение на весах, где происходит настоящее обновление параметров — с помощью разреженных слоёв памяти, циклов усиленного обучения, обучения во время тестирования. Третье — модульные подходы, реализуемые через вставляемые знания, позволяющие специализацию без изменения основных весов.

Направлений по обучению на весах очень много. Есть методы регуляризации (например, EWC), есть обучение во время тестирования (градиентный спуск при выводе), есть метаобучение (обучение модели тому, как учиться), есть самодистилляция и рекурсивное самосовершенствование. Все эти направления сходятся, и следующая генерация систем, скорее всего, будет сочетать несколько стратегий.

Но есть важная проблема: простое обновление весов в производственной среде вызывает множество вопросов. Катастрофическое забывание, разобщённость во времени, неудачи в логической интеграции, а также невозможность реализовать операции забывания — эти фундаментальные сложности. Ещё сложнее — вопросы безопасности и управления — как только открываются границы обучения и развертывания, возможна потеря согласованности, уязвимость к атакам с подменой данных, исчезает возможность аудита, увеличиваются риски утечек. Всё это открытые проблемы, но они уже включены в исследовательскую повестку.

Интересно, что стартап-экосистема уже начала действовать на этих уровнях. В сфере контекста есть компании вроде Letta, mem0, которые управляют стратегиями контекста; на уровне параметров — команды экспериментируют с частичным сжатием, обратной связью RL, методами центров обработки данных, а радикальные — переосмысливают архитектуру в целом. Пока ни один подход не одержал окончательную победу, и учитывая разнообразие сценариев использования, возможно, не стоит ждать только одного победителя.

С определённой точки зрения, мы сейчас находимся на переломном этапе. Поиск действительно мощен, но поиск — это не обучение. Настоящая модель, которая сможет после развертывания продолжать сжимать опыт и внутренне усваивать новые знания, будет создавать сложность, недоступную существующим системам, и приносить кумулятивную ценность. Это может означать прогресс в разрежённых архитектурах, метаобучении и циклах самосовершенствования, а также — необходимость переосмысления самого понятия «модель» — не как фиксированного набора весов, а как эволюционной системы.

Перспектива постоянного обучения именно в этом. Бюро с файлами — это всего лишь бюро, прорыв заключается в том, чтобы модель после развертывания могла обучаться, сжимать, абстрагировать и по-настоящему учиться. Иначе мы рискуем застрять в своём вечном настоящем.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить