AIMPACT mensagem, 16 de maio (UTC+8), um novo artigo propõe um método sistemático para transformar modelos de raciocínio pós-treinamento em solucionadores de nível olímpico, e treina o modelo SU-01 com base nesse método.
Esse método inclui três etapas: primeiro, realizar ajuste fino supervisionado usando um curso de perplexidade reversa para incorporar comportamentos rigorosos de busca de provas e autoverificação;
depois, expandir esses comportamentos através de aprendizagem por reforço em duas fases (de aprendizagem por reforço com recompensas verificáveis para aprendizagem por reforço de nível de prova);
por fim, melhorar o desempenho por escalonamento durante a testagem.
A equipe de pesquisa aplicou o método ao modelo backbone 30B-A3B, usando aproximadamente 340 mil trajetórias de 8K tokens para ajuste fino supervisionado, seguido de 200 passos de aprendizagem por reforço, resultando no SU-01.
Esse modelo consegue raciocinar de forma estável em problemas difíceis, com trajetórias que ultrapassam 100 mil tokens, atingindo nível de medalha de ouro em competições como IMO 2025/USAMO 2026 e IPhO 2024/2025, e demonstrando capacidade de generalização em domínios de raciocínio científico além de matemática e física.
(Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

8 gostos

Recompensa
8
12
Republicar
Partilhar

Comentar

Adicionar um comentário

LateEntryLarry

· 13m atrás

Isto conta como dar mais um passo à frente na direção do STaR e do RLHF?

Ver originalResponder0

FloatingMirrorSphere

· 2h atrás

A saída estável de trajetória de 100 mil tokens sem falhas, também bastante forte na camada de infraestrutura

Ver originalResponder0

GateUser-46c777d0

· 6h atrás

34 mil trajetórias alimentadas, o RL só rodou 200 passos, a eficiência dos dados é maior do que se imagina

Ver originalResponder0

CandlewickKid

· 6h atrás

A competição de física também pode ser generalizada? Quero ver como ela se sai em questões de design experimental

Ver originalResponder0

RetroRadioWaves

· 6h atrás

A melhoria de escalonamento no momento de teste refere-se ao escalonamento de cálculo no momento de teste?

Ver originalResponder0

ReflectiveChainShadow

· 6h atrás

O detalhe da trajetória de 8K é interessante, é dividir a prova longa em pequenos pedaços para alimentar?

Ver originalResponder0

ByteSizedAlpha

· 6h atrás

A afirmação de generalização transdisciplinar é muito grande, aguarde um exemplo concreto.

Ver originalResponder0

StainedGlassSolarArray

· 6h atrás

A capacidade de autoavaliação pode ser a mais importante, muito mais do que simplesmente gerar respostas.

Ver originalResponder0

StillHereAfterTheRugPull

· 6h atrás

O nome 30B-A3B, o A3B é o parâmetro de ativação?

Ver originalResponder0

GateUser-52241ed6

· 6h atrás

IMO de nível ouro... Será que no futuro as competições terão uma categoria para humanos e outra para IA?

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.23M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.72K Popularidade
#
IsraelStrikesIranBTCPlunges
49.59K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularidade
#
MicronMarketCapBreaks1Trillion
38.77K Popularidade

Fixado

O modelo de inferência pós-treinamento SU-01 alcança desempenho de medalha de ouro em questões de nível olímpico

Tópicos em destaque

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado