AIMPACT mensagem, 16 de maio (UTC+8), um novo artigo propõe um método sistemático para transformar modelos de raciocínio pós-treinamento em solucionadores de nível olímpico, e treina o modelo SU-01 com base nesse método.
Este método inclui três etapas: primeiro, ajuste supervisionado usando um curso de perplexidade reversa para incorporar uma busca rigorosa por provas e comportamento de auto-verificação;
depois, expandir esses comportamentos através de aprendizagem por reforço em duas fases (de aprendizagem por reforço com recompensas verificáveis para aprendizagem por reforço de nível de prova);
por fim, melhorar o desempenho por escalonamento durante a testagem.
A equipe de pesquisa aplicou o método ao modelo backbone 30B-A3B, usando cerca de 340 mil trajetórias de 8K tokens subsidiários para ajuste supervisionado, seguido de 200 passos de aprendizagem por reforço, resultando no SU-01.
Este modelo consegue raciocinar de forma estável em problemas difíceis, com trajetórias que ultrapassam 100 mil tokens, atingindo nível de medalha de ouro em competições como IMO 2025/USAMO 2026 e IPhO 2024/2025, e demonstrando capacidade de generalização em domínios de raciocínio científico além de matemática e física.
(Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

7 gostos

Recompensa
7
8
Republicar
Partilhar

Comentar

Adicionar um comentário

SucculentCross-Section

· 22m atrás

IMO nível de ouro? Vamos esperar pela reprodução de código aberto primeiro

Ver originalResponder0

DeepBlueStakingStone

· 1h atrás

34 milhões de registros de dados de trajetórias na verdade não são considerados exagerados, mas a filtragem de qualidade deve ser bastante trabalhosa

Ver originalResponder0

BlackVelvetKeychain

· 6h atrás

O design do curso de perplexidade inversa é bastante interessante, pois codifica a experiência de resolução de problemas dos humanos.

Ver originalResponder0

OrdersPlacedBeforeTheStorm

· 6h atrás

Se o mecanismo de auto-verificação pudesse ser visualizado, o processo de depuração e raciocínio seria muito mais fácil.

Ver originalResponder0

VinesCoiledIntoGeometricShapes

· 6h atrás

As competições de física também estão cobertas, agora os estudantes de física têm IA para treinar com eles

Ver originalResponder0

BridgeAnxiety

· 6h atrás

A3B é que arquitetura, alguém que entende pode explicar?

Ver originalResponder0

GateUser-ecf4759e

· 6h atrás

A escolha do grau de granularidade de trajetória de 8K tem suas nuances, muito longa a propagação do gradiente pode explodir

Ver originalResponder0

FudAlsoNeedsAnImage

· 6h atrás

A última frase 'generalização do raciocínio científico' fez-me pensar no paradoxo de Polanyi — sabemos mais do que conseguimos expressar, a IA consegue agora atingir essa parte de intuição não explicitada?

Ver originalResponder0

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.22M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
816.65K Popularidade
#
IsraelStrikesIranBTCPlunges
49.57K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularidade
#
MicronMarketCapBreaks1Trillion
36.25K Popularidade

Fixado

O modelo de inferência pós-treinamento SU-01 alcança desempenho de medalha de ouro em questões de nível olímpico

Tópicos em destaque

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado