AIMPACT mensagem, 16 de maio (UTC+8), um novo artigo propõe um método sistemático para transformar modelos de raciocínio pós-treinamento em solucionadores de nível olímpico, e treinou o modelo SU-01 com base nesse método.
Esse método inclui três etapas: primeiro, usar um curso de perplexidade reversa para ajuste supervisionado, a fim de incorporar comportamentos rigorosos de busca por provas e autoverificação;
depois, expandir esses comportamentos por meio de aprendizado por reforço em duas fases (de aprendizado por reforço com recompensas verificáveis para aprendizado por reforço de nível de prova);
por fim, melhorar o desempenho por meio de escalonamento durante testes.
A equipe de pesquisa aplicou o método ao modelo backbone 30B-A3B, usando cerca de 340 mil trajetórias de 8K tokens para ajuste supervisionado, seguido de 200 passos de aprendizado por reforço, resultando no SU-01.
Esse modelo consegue raciocinar de forma estável em problemas difíceis, com trajetórias que ultrapassam 100 mil tokens, atingindo nível de medalha de ouro em competições como IMO 2025/USAMO 2026 e IPhO 2024/2025, além de demonstrar capacidade de generalização em domínios de raciocínio científico além de matemática e física.
(Fonte: InFoQ)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

7 Curtidas

Recompensa
7
7
Repostar
Compartilhar

Comentário

Adicionar um comentário

DeepBlueStakingStone

· 28m atrás

34 milhões de registros de dados de trajetória na verdade não são exagerados, mas a filtragem de qualidade deve ser bastante trabalhosa

Ver originalResponder0

BlackVelvetKeychain

· 5h atrás

O design do curso de perplexidade reversa é bastante interessante, pois codificou a experiência de humanos resolvendo questões.

Ver originalResponder0

OrdersPlacedBeforeTheStorm

· 5h atrás

Se o mecanismo de autoavaliação puder ser visualizado, a depuração do processo de raciocínio será muito mais fácil

Ver originalResponder0

VinesCoiledIntoGeometricShapes

· 5h atrás

As competições de física também estão cobertas, agora os estudantes de física têm um treinador de IA para praticar

Ver originalResponder0

BridgeAnxiety

· 5h atrás

O que é a arquitetura A3B, alguém que entende pode explicar?

Ver originalResponder0

GateUser-ecf4759e

· 5h atrás

A escolha do grau de granularidade de trajetória de 8K tem suas particularidades, muito longa a propagação do gradiente pode explodir

Ver originalResponder0

FudAlsoNeedsAnImage

· 5h atrás

A última frase 'raciocínio científico generalizado' me fez pensar no paradoxo de Polanyi — sabemos mais do que podemos expressar, a IA agora consegue alcançar aquela parte não dita da intuição?

Ver originalResponder0

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.22M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
816.19K Popularidade
#
IsraelStrikesIranBTCPlunges
49.57K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularidade
#
MicronMarketCapBreaks1Trillion
36.04K Popularidade

Fixado

sitemap

O modelo de inferência pós-treinamento SU-01 alcança desempenho de medalha de ouro em questões de nível olímpico

Tendências

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado