Notícias da CoinInsider, a OneMillion_AI afirmou num artigo que os grandes modelos de linguagem enfrentam o desafio de não conseguirem absorver continuamente novos conhecimentos após a implementação. As técnicas de otimização existentes concentram-se principalmente em expandir a janela de contexto e melhorar a velocidade de pesquisa, não conseguindo resolver o problema do esquecimento de conhecimento. A autodestilação estratégica online (opsd) oferece um novo caminho de atualização de pesos, calculando a diferença de probabilidade ao nível do token entre o estado base e o estado professor através de retropropagação, fornecendo um sinal de supervisão que ajuda o modelo base a aproximar-se de estados de alta pontuação. Em comparação com o ajuste fino supervisionado tradicional, a autodestilação extrai apenas a experiência de decisão necessária, evitando o esquecimento catastrófico e protegendo o conhecimento geral dos grandes modelos. Outra via de aprendizagem é a simulação de sonhos, onde o modelo constrói um ambiente de simulador virtual em tarefas complexas para realizar ensaios de tarefas, e as trajetórias bem-sucedidas atualizam os pesos do modelo base. Prevê-se que entre 2027 e 2028, os agentes de IA, após uma semana de trabalho colaborativo com humanos, serão submetidos a uma avaliação de desempenho e, após obterem reconhecimento, internalizarão a experiência prática nos pesos subjacentes do modelo através de autodestilação estratégica online ou simulação de sonhos, realizando uma expansão de capacidades online.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

3 gostos

Recompensa
3
5
1
Partilhar

Comentar

Adicionar um comentário

tvl_down_bad

· 4h atrás

O cronograma de 2027-2028 é demasiado otimista? Parece que o problema de alinhamento ainda não foi resolvido.

Ver originalResponder0

GateUser-d6fb8ff1

· 4h atrás

A simulação de sonhos faz-me lembrar o auto-jogo do AlphaGo, onde a IA se aprimora a si própria num ambiente virtual, cabendo aos humanos apenas a validação final.

Ver originalResponder0

OneMoreReorg

· 4h atrás

Manter o conhecimento geral é crucial, agora, ao ajustar uma tarefa, esquece-se de tudo o que aprendeu antes, é como um peixe dourado.

Ver originalResponder0

ChillBlock

· 4h atrás

OPSD esta ideia é muito interessante, retropropagação calcula a diferença de probabilidade, é muito mais elegante do que forçar novos dados.

Ver originalResponder0

GateUser-8acf43da

· 4h atrás

O sinal de supervisão a nível de token é muito engenhoso, mas de onde vem o estado do professor? Quem define o padrão de pontuação alta?

Ver originalResponder0

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
1,64M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
485,78K Popularidade
#
IsraelStrikesIranBTCPlunges
64,84K Popularidade
#
PredictWorldCupShare20000U
127,06K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
193,61K Popularidade

Fixado

Auto-destilação de estratégia online e simulação de sonhos podem tornar-se uma nova solução para a aprendizagem contínua de grandes modelos.

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado