Notícias da CoinWorld: OneMillion_AI publicou que grandes modelos de linguagem enfrentam o problema de não conseguirem absorver continuamente novos conhecimentos após a implantação. As técnicas existentes de otimização se concentram principalmente em expandir a janela de contexto e aumentar a velocidade de busca, mas não resolvem o problema do esquecimento de conhecimento.
A auto-destilação de estratégia online (OPSD) oferece um novo caminho de atualização de pesos, calculando a diferença de probabilidade no nível de token entre o estado base e o estado professor através de retropropagação, fornecendo sinais de supervisão para ajudar o modelo base a se aproximar de um estado de alta pontuação.
Em comparação com o ajuste fino supervisionado tradicional, a auto-destilação extrai apenas a experiência de decisão necessária, evitando o esquecimento catastrófico e protegendo o conhecimento geral do modelo grande.
Outro caminho de aprendizado é a simulação de sonhos, onde o modelo constrói um ambiente de simulador virtual para realizar simulações de tarefas em tarefas complexas, e as trajetórias bem-sucedidas atualizarão os pesos do modelo base.
Prevê-se que, entre 2027 e 2028, agentes de IA, após trabalharem em colaboração com humanos por uma semana, receberão uma avaliação de trabalho. Após obterem reconhecimento, eles internalizarão a experiência prática nos pesos subjacentes do modelo através de auto-destilação de estratégia online ou simulação de sonhos, realizando a expansão online das capacidades.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

3 Curtidas

Recompensa
3
5
1
Compartilhar

Comentário

Adicionar um comentário

tvl_down_bad

· 4h atrás

O cronograma de 2027-2028 é muito otimista? Parece que o problema de alinhamento ainda não foi resolvido.

Ver originalResponder0

GateUser-d6fb8ff1

· 4h atrás

A simulação de sonhos me lembra do autojogo do AlphaGo, onde a IA compete consigo mesma em um ambiente virtual, e os humanos só precisam da validação final.

Ver originalResponder0

OneMoreReorg

· 4h atrás

Preservar o conhecimento geral é crucial, agora ajustar uma tarefa faz esquecer tudo o que foi aprendido antes, é como um peixe dourado.

Ver originalResponder0

ChillBlock

· 4h atrás

OPSD é uma ideia bastante interessante, calcular a diferença de probabilidade por retropropagação é muito mais elegante do que forçar novos dados.

Ver originalResponder0

GateUser-8acf43da

· 4h atrás

O design dos sinais de supervisão em nível de token é muito refinado, mas de onde vem o estado do professor? Quem define o padrão de pontuação alta?

Ver originalResponder0

Tendências
Ver projetos
#
SKHynixTopsKOSPIByMarketCap
1,64M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
485,82K Popularidade
#
IsraelStrikesIranBTCPlunges
64,84K Popularidade
#
PredictWorldCupShare20000U
127,06K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
193,61K Popularidade

Fixado

sitemap

Autodestilação de políticas online e simulação de sonhos podem se tornar novas soluções para aprendizado contínuo de grandes modelos

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado