Relatado, a Nous Research propôs o TST: empacotamento de tokens adjacentes na fase inicial de treino, calculando a média de entrada, sem ler tokens individualmente nas fases de 20–40%, prevendo os tokens empacotados, e depois retornando à previsão convencional do próximo token. A arquitetura subjacente permanece inalterada, tendo sido validada em um modelo MoE com 10 bilhões de parâmetros, podendo reduzir o tempo de treino em 2–3 vezes, sendo uma troca de dados por poder computacional. Se o texto de alta qualidade se esgotar, a dependência de dados pode tornar-se uma fraqueza. Muito semelhante ao 《Beyond Next Token Prediction》, é uma pesquisa convergente, que será citada como referência adicional.

MeNews

2026-05-17 04:00:22

Geração de resumo em curso

ME News Notícias, 14 de maio (UTC+8), de acordo com o monitoramento do Beating, a Nous Research lançou um novo esquema de pré-treinamento de grandes modelos chamado treinamento por sobreposição de tokens (TST).
Este esquema, ao empacotar e comprimir tokens adjacentes na fase inicial do treinamento, consegue reduzir o tempo de pré-treinamento em 2 a 3 vezes sob a mesma quantidade de cálculo.
O TST inclui duas fases.
Nos 20% a 40% iniciais do treinamento, o modelo não lê os tokens individualmente, mas empacota tokens adjacentes e calcula a média deles como entrada, e na saída prevê quais tokens estão incluídos nesse pacote (sem considerar a ordem interna).
Depois, o modelo volta à previsão convencional do próximo token.
Por não modificar a arquitetura subjacente, o modelo resultante é exatamente igual ao modelo padrão na inferência.
Este método foi validado em um modelo MoE com até 10 bilhões de parâmetros.
A essência desta abordagem é “usar dados para trocar por poder de processamento”, acelerando o consumo de corpus para reduzir o tempo de cálculo.
Se no futuro o texto de alta qualidade se esgotar, essa característica de acelerar o consumo de dados pode se tornar uma fraqueza.
Além disso, poucas horas após a publicação do artigo, um leitor apontou que o mecanismo do TST é extremamente semelhante ao antigo trabalho “Beyond Next Token Prediction” publicado em 2024.
A equipe de autores posteriormente admitiu na Hugging Face que se trata de uma “pesquisa convergente infeliz” e prometeu atualizar o artigo com a devida citação.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.94M Popularidade
#
CLARITYActPassesSenateCommittee
3.58M Popularidade
#
IsraelStrikesIranBTCPlunges
47.33K Popularidade
#
#DailyPolymarketHotspot
975.32K Popularidade
#
BitcoinVShapedReversalBack
227.15M Popularidade

Fixado

Pré-treinamento acelerado de 2 a 3 vezes, a nova solução TST da Nous enfrenta controvérsia de "colisão"

Tópicos em destaque

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fixado