Сообщение от Bixie: OneMillion_AI заявляет, что большие языковые модели после развертывания сталкиваются с проблемой невозможности непрерывного усвоения новых знаний, а существующие методы оптимизации в основном сосредоточены на расширении контекстного окна и повышении скорости поиска, не решая проблему забывания знаний. Онлайн-стратегия самодистилляции (OPSD) предлагает новый путь обновления весов: вычисление разницы вероятностей на уровне токенов между базовым состоянием и состоянием учителя через обратное распространение, что обеспечивает сигнал надзора и помогает базовой модели приблизиться к состоянию с высокой оценкой. По сравнению с традиционной контролируемой донастройкой, самодистилляция извлекает только необходимый опыт принятия решений, избегая катастрофического забывания и защищая общие знания большой модели. Другой путь обучения — имитация сновидений: модель строит виртуальную среду симулятора для выполнения задач в сложных сценариях, и успешные траектории обновляют веса базовой модели. Ожидается, что в 2027–2028 годах ИИ-агенты после недели совместной работы с человеком будут проходить оценку работы, и после получения одобрения будут интернализировать боевой опыт в глубинные веса модели через онлайн-стратегию самодистилляции или имитацию сновидений, реализуя онлайн-расширение способностей.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

3 Лайков

Награда
3
5
1
Поделиться

комментарий

Добавить комментарий

tvl_down_bad

· 4ч назад

Этот график на 2027-2028 годы не слишком ли оптимистичен? Кажется, проблема выравнивания еще не решена.

Посмотреть ОригиналОтветить0

GateUser-d6fb8ff1

· 4ч назад

Мечтательное моделирование напоминает мне о самоигре AlphaGo: ИИ «накручивает» себя в виртуальной среде, а человеку остаётся лишь финальная проверка.

Посмотреть ОригиналОтветить0

OneMoreReorg

· 4ч назад

Сохранение общих знаний — это ключевой момент, сейчас при тонкой настройке на одну задачу забывается всё, что было изучено ранее, просто как золотая рыбка.

Посмотреть ОригиналОтветить0

ChillBlock

· 4ч назад

Идея OPSD довольно интересна, обратное распространение вычисляет разницу вероятностей, что гораздо элегантнее, чем втискивание новых данных.

Посмотреть ОригиналОтветить0

GateUser-8acf43da

· 4ч назад

token级监督信号设计得很精巧，但教师状态本身从哪来？高分标准谁定

Ответить0

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,64M Популярность
#
MicronEarningsBeatExpectationsSharesRise
485,78K Популярность
#
IsraelStrikesIranBTCPlunges
64,84K Популярность
#
PredictWorldCupShare20000U
127,06K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
193,61K Популярность

Закреплено

Карта сайта

Онлайн-политика самодистилляции и имитация сновидений могут стать новым решением для непрерывного обучения больших моделей.

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено