Auto-destilação de estratégia online e simulação de sonhos podem tornar-se uma nova solução para a aprendizagem contínua de grandes modelos.

robot
Geração de resumo em curso
Notícias da CoinInsider, a OneMillion_AI afirmou num artigo que os grandes modelos de linguagem enfrentam o desafio de não conseguirem absorver continuamente novos conhecimentos após a implementação. As técnicas de otimização existentes concentram-se principalmente em expandir a janela de contexto e melhorar a velocidade de pesquisa, não conseguindo resolver o problema do esquecimento de conhecimento. A autodestilação estratégica online (opsd) oferece um novo caminho de atualização de pesos, calculando a diferença de probabilidade ao nível do token entre o estado base e o estado professor através de retropropagação, fornecendo um sinal de supervisão que ajuda o modelo base a aproximar-se de estados de alta pontuação. Em comparação com o ajuste fino supervisionado tradicional, a autodestilação extrai apenas a experiência de decisão necessária, evitando o esquecimento catastrófico e protegendo o conhecimento geral dos grandes modelos. Outra via de aprendizagem é a simulação de sonhos, onde o modelo constrói um ambiente de simulador virtual em tarefas complexas para realizar ensaios de tarefas, e as trajetórias bem-sucedidas atualizam os pesos do modelo base. Prevê-se que entre 2027 e 2028, os agentes de IA, após uma semana de trabalho colaborativo com humanos, serão submetidos a uma avaliação de desempenho e, após obterem reconhecimento, internalizarão a experiência prática nos pesos subjacentes do modelo através de autodestilação estratégica online ou simulação de sonhos, realizando uma expansão de capacidades online.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
tvl_down_bad
· 4h atrás
O cronograma de 2027-2028 é demasiado otimista? Parece que o problema de alinhamento ainda não foi resolvido.
Ver originalResponder0
GateUser-d6fb8ff1
· 4h atrás
A simulação de sonhos faz-me lembrar o auto-jogo do AlphaGo, onde a IA se aprimora a si própria num ambiente virtual, cabendo aos humanos apenas a validação final.
Ver originalResponder0
OneMoreReorg
· 4h atrás
Manter o conhecimento geral é crucial, agora, ao ajustar uma tarefa, esquece-se de tudo o que aprendeu antes, é como um peixe dourado.
Ver originalResponder0
ChillBlock
· 4h atrás
OPSD esta ideia é muito interessante, retropropagação calcula a diferença de probabilidade, é muito mais elegante do que forçar novos dados.
Ver originalResponder0
GateUser-8acf43da
· 4h atrás
O sinal de supervisão a nível de token é muito engenhoso, mas de onde vem o estado do professor? Quem define o padrão de pontuação alta?
Ver originalResponder0
  • Fixado