AIMPACT mensagem, 16 de maio (UTC+8), um novo artigo propõe um método sistemático para transformar modelos de raciocínio pós-treinamento em solucionadores de nível olímpico, e treina o modelo SU-01 com base nesse método.
Este método inclui três etapas: primeiro, ajuste supervisionado usando um curso de perplexidade reversa para incorporar uma busca rigorosa por provas e comportamento de auto-verificação;
depois, expandir esses comportamentos através de aprendizagem por reforço em duas fases (de aprendizagem por reforço com recompensas verificáveis para aprendizagem por reforço de nível de prova);
por fim, melhorar o desempenho por escalonamento durante a testagem.
A equipe de pesquisa aplicou o método ao modelo backbone 30B-A3B, usando cerca de 340 mil trajetórias de 8K tokens subsidiários para ajuste supervisionado, seguido de 200 passos de aprendizagem por reforço, resultando no SU-01.
Este modelo consegue raciocinar de forma estável em problemas difíceis, com trajetórias que ultrapassam 100 mil tokens, atingindo nível de medalha de ouro em competições como IMO 2025/USAMO 2026 e IPhO 2024/2025, e demonstrando capacidade de generalização em domínios de raciocínio científico além de matemática e física.
(Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

12 gostos

Recompensa
12
11
2
Partilhar

Comentar

Adicionar um comentário

SeaSaltMintCandy

· 5h atrás

O nome SU-01 tem algum significado, ou foi apenas escolhido aleatoriamente?

Ver originalResponder0

StainedGlassSolarArray

· 6h atrás

Após a transformação deste conceito, outros laboratórios deverão seguir rapidamente.

Ver originalResponder0

GateUser-d2929483

· 6h atrás

Se este trabalho for realmente verdadeiro, os dados do problema da competição vão aumentar de preço

Ver originalResponder0

StopRaisingGasFees.

· 6h atrás

O RL de 200 passos consegue convergir? Ou é apenas um número divulgado?

Ver originalResponder0

MetalFrameBookPageCross

· 6h atrás

O que exatamente significa a extensão de duas fases do RL? Existem detalhes?

Ver originalResponder0

GateUser-7a050ee5

· 7h atrás

À espera de código aberto ou relatórios técnicos detalhados, por agora deixo marcado.

Ver originalResponder0

GateUser-f4b3df7a

· 7h atrás

Como é que o mecanismo de autoavaliação é implementado, há um objetivo de treino separado?

Ver originalResponder0

GateUser-e3701961

· 7h atrás

Durante os testes, a melhoria na escalabilidade é devido à auto-coerência ou a outra técnica?

Ver originalResponder0

LittleBitcoinInTheReflection

· 7h atrás

Este tamanho de 30B-A3B consegue fazer isso, a eficiência é muito maior do que a do GPT-4, não é?

Ver originalResponder0

HalfLifeHodler

· 7h atrás

A capacidade de generalização transdisciplinar é o aspecto mais importante a observar, não seja mais uma vez um ajuste excessivo ao benchmark.

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.23M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.24K Popularidade
#
IsraelStrikesIranBTCPlunges
49.57K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Popularidade
#
MicronMarketCapBreaks1Trillion
37.13K Popularidade

Fixado

O modelo de inferência pós-treinamento SU-01 alcança desempenho de medalha de ouro em questões de nível olímpico

Tópicos em destaque

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado