Autodestilação de políticas online e simulação de sonhos podem se tornar novas soluções para aprendizado contínuo de grandes modelos

robot
Geração do resumo em andamento
Notícias da CoinWorld: OneMillion_AI publicou que grandes modelos de linguagem enfrentam o problema de não conseguirem absorver continuamente novos conhecimentos após a implantação. As técnicas existentes de otimização se concentram principalmente em expandir a janela de contexto e aumentar a velocidade de busca, mas não resolvem o problema do esquecimento de conhecimento.
A auto-destilação de estratégia online (OPSD) oferece um novo caminho de atualização de pesos, calculando a diferença de probabilidade no nível de token entre o estado base e o estado professor através de retropropagação, fornecendo sinais de supervisão para ajudar o modelo base a se aproximar de um estado de alta pontuação.
Em comparação com o ajuste fino supervisionado tradicional, a auto-destilação extrai apenas a experiência de decisão necessária, evitando o esquecimento catastrófico e protegendo o conhecimento geral do modelo grande.
Outro caminho de aprendizado é a simulação de sonhos, onde o modelo constrói um ambiente de simulador virtual para realizar simulações de tarefas em tarefas complexas, e as trajetórias bem-sucedidas atualizarão os pesos do modelo base.
Prevê-se que, entre 2027 e 2028, agentes de IA, após trabalharem em colaboração com humanos por uma semana, receberão uma avaliação de trabalho. Após obterem reconhecimento, eles internalizarão a experiência prática nos pesos subjacentes do modelo através de auto-destilação de estratégia online ou simulação de sonhos, realizando a expansão online das capacidades.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
tvl_down_bad
· 4h atrás
O cronograma de 2027-2028 é muito otimista? Parece que o problema de alinhamento ainda não foi resolvido.
Ver originalResponder0
GateUser-d6fb8ff1
· 4h atrás
A simulação de sonhos me lembra do autojogo do AlphaGo, onde a IA compete consigo mesma em um ambiente virtual, e os humanos só precisam da validação final.
Ver originalResponder0
OneMoreReorg
· 4h atrás
Preservar o conhecimento geral é crucial, agora ajustar uma tarefa faz esquecer tudo o que foi aprendido antes, é como um peixe dourado.
Ver originalResponder0
ChillBlock
· 4h atrás
OPSD é uma ideia bastante interessante, calcular a diferença de probabilidade por retropropagação é muito mais elegante do que forçar novos dados.
Ver originalResponder0
GateUser-8acf43da
· 4h atrás
O design dos sinais de supervisão em nível de token é muito refinado, mas de onde vem o estado do professor? Quem define o padrão de pontuação alta?
Ver originalResponder0