O modelo de inferência pós-treinamento SU-01 alcança desempenho de medalha de ouro em questões de nível olímpico

robot
Geração do resumo em andamento
AIMPACT mensagem, 16 de maio (UTC+8), um novo artigo propõe um método sistemático para transformar modelos de raciocínio pós-treinamento em solucionadores de nível olímpico, e treina o modelo SU-01 com base nesse método.
O método inclui três etapas: primeiro, usar um curso de perplexidade reversa para ajuste supervisionado, a fim de incorporar comportamentos rigorosos de busca de provas e autoverificação;
depois, expandir esses comportamentos por meio de aprendizado por reforço em duas fases (de aprendizado por reforço com recompensas verificáveis para aprendizado por reforço de nível de prova);
por fim, melhorar o desempenho por meio de escalonamento durante a teste.
A equipe de pesquisa aplicou o método ao modelo backbone 30B-A3B, usando cerca de 340 mil trajetórias de 8K tokens subsidiários para ajuste supervisionado, seguido de 200 passos de aprendizado por reforço, resultando no SU-01.
O modelo consegue raciocinar de forma estável em problemas difíceis, com trajetórias que ultrapassam 100 mil tokens, atingindo nível de medalha de ouro em competições como IMO 2025/USAMO 2026 e IPhO 2024/2025, além de demonstrar capacidade de generalização em domínios de raciocínio científico além de matemática e física.
(Fonte: InFoQ)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 10
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
GateUser-46c777d0
· 3h atrás
34 mil trajetórias alimentadas, o RL só rodou 200 passos, a eficiência dos dados é maior do que se imagina
Ver originalResponder0
CandlewickKid
· 3h atrás
A competição de física também pode ser generalizada? Quero ver como ela se sai em questões de design experimental
Ver originalResponder0
RetroRadioWaves
· 3h atrás
A melhoria de escalonamento durante o teste refere-se ao escalonamento de cálculo em tempo de teste?
Ver originalResponder0
ReflectiveChainShadow
· 3h atrás
O detalhe da trajetória de 8K é interessante, é como dividir uma prova longa em pedaços menores para alimentar?
Ver originalResponder0
ByteSizedAlpha
· 3h atrás
A afirmação de generalização transdisciplinar é muito grande, aguarde um exemplo concreto.
Ver originalResponder0
StainedGlassSolarArray
· 3h atrás
A capacidade de autoavaliação pode ser a mais importante, muito mais do que simplesmente gerar respostas.
Ver originalResponder0
StillHereAfterTheRugPull
· 3h atrás
O nome 30B-A3B, A3B é o parâmetro de ativação?
Ver originalResponder0
GateUser-52241ed6
· 3h atrás
IMO de nível de ouro... Será que no futuro as competições vão dividir uma categoria para humanos e outra para IA?
Ver originalResponder0
GateUser-e72657f0
· 3h atrás
O design do curso de perplexidade reversa é excelente, faz o modelo aprender a duvidar de si mesmo primeiro
Ver originalResponder0
GateUser-d2b4d9c6
· 3h atrás
Caminho de raciocínio de 100 mil tokens, isso já não é mais fazer uma questão, é escrever uma tese
Ver originalResponder0
Ver projetos