A afinação RL permite que o modelo de 4B supere o de 235B em perguntas financeiras: a Snorkel AI lança ambiente de treino FinQA de código aberto

robot
Geração de resumo em curso

De acordo com o acompanhamento da 1M AI News, a Snorkel AI lançou a FinQA, um ambiente de treino de aprendizagem por reforço construído sobre documentos financeiros reais do SEC 10-K, agora disponibilizado em código aberto na plataforma OpenEnv, conjuntamente mantida pela Meta, PyTorch e Hugging Face. A FinQA abrange 290 perguntas financeiras com anotações especializadas de 22 empresas cotadas publicamente, incluindo Alphabet, Amazon, Apple, Bank of America e Boeing, fornecendo ao Agent quatro ferramentas MCP: listar as tabelas financeiras disponíveis, recuperar as estruturas das tabelas, executar consultas SQL e submeter respostas. O SQL impõe condições de filtragem e proíbe SELECT *, forçando o Agent a recuperar apenas os dados necessários em vez de despejar a tabela inteira. A Snorkel AI colaborou com a equipa rLLM da Universidade da Califórnia, Berkeley, para afinar o Qwen3-4B com a FinQA, resultando numa pontuação de 59,7% no benchmark de Q&A financeiro SnorkelFinance, ultrapassando a mesma série Qwen3-235B (51,37%), com aproximadamente 1/60 do número de parâmetros e uma redução de 90% no custo de inferência. Principais conclusões: embora modelos grandes possam raciocinar, podem gerar nomes de colunas alucinados e ignorar as restrições de SQL; em contraste, o modelo mais pequeno treinado com RL consegue invocar as ferramentas com precisão, indicando que o “tool discipline” em vez da escala é o gargalo. A FinQA é o primeiro ambiente em código aberto lançado pela Snorkel AI na OpenEnv, com planos para lançar ambientes empresariais de múltiplas interações, cobrindo setores como a saúde, seguros e direito no futuro.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar