Онлайн-политика самодистилляции и имитация сновидений могут стать новым решением для непрерывного обучения больших моделей.

robot
Генерация тезисов в процессе
Сообщение от Bixie: OneMillion_AI заявляет, что большие языковые модели после развертывания сталкиваются с проблемой невозможности непрерывного усвоения новых знаний, а существующие методы оптимизации в основном сосредоточены на расширении контекстного окна и повышении скорости поиска, не решая проблему забывания знаний. Онлайн-стратегия самодистилляции (OPSD) предлагает новый путь обновления весов: вычисление разницы вероятностей на уровне токенов между базовым состоянием и состоянием учителя через обратное распространение, что обеспечивает сигнал надзора и помогает базовой модели приблизиться к состоянию с высокой оценкой. По сравнению с традиционной контролируемой донастройкой, самодистилляция извлекает только необходимый опыт принятия решений, избегая катастрофического забывания и защищая общие знания большой модели. Другой путь обучения — имитация сновидений: модель строит виртуальную среду симулятора для выполнения задач в сложных сценариях, и успешные траектории обновляют веса базовой модели. Ожидается, что в 2027–2028 годах ИИ-агенты после недели совместной работы с человеком будут проходить оценку работы, и после получения одобрения будут интернализировать боевой опыт в глубинные веса модели через онлайн-стратегию самодистилляции или имитацию сновидений, реализуя онлайн-расширение способностей.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
tvl_down_bad
· 4ч назад
Этот график на 2027-2028 годы не слишком ли оптимистичен? Кажется, проблема выравнивания еще не решена.
Посмотреть ОригиналОтветить0
GateUser-d6fb8ff1
· 4ч назад
Мечтательное моделирование напоминает мне о самоигре AlphaGo: ИИ «накручивает» себя в виртуальной среде, а человеку остаётся лишь финальная проверка.
Посмотреть ОригиналОтветить0
OneMoreReorg
· 4ч назад
Сохранение общих знаний — это ключевой момент, сейчас при тонкой настройке на одну задачу забывается всё, что было изучено ранее, просто как золотая рыбка.
Посмотреть ОригиналОтветить0
ChillBlock
· 4ч назад
Идея OPSD довольно интересна, обратное распространение вычисляет разницу вероятностей, что гораздо элегантнее, чем втискивание новых данных.
Посмотреть ОригиналОтветить0
GateUser-8acf43da
· 4ч назад
token级监督信号设计得很精巧,但教师状态本身从哪来?高分标准谁定
Ответить0
  • Закреплено