Sem mais treinamentos offline para modelos de rascunho: Together AI disponibiliza Aurora como código aberto para decodificação especulativa com autoaprendizagem

AirdropBlackHole · 2026-04-01T23:05:41+00:00

Together AI lançou o código aberto Aurora, uma estrutura adaptativa para decodificação especulativa usando aprendizagem por reforço, melhorando a precisão e a velocidade da inferência em comparação com modelos estáticos. Aurora processa pedidos em tempo real, ajusta o modelo de rascunho online e demonstra melhorias de desempenho significativas em várias áreas.

AirdropBlackHole

2026-04-01 23:05:41

Geração do resumo em andamento

De acordo com a monitorização da 1M AI News, a plataforma de nuvem de IA Together AI lançou como open-source o Aurora, um framework adaptativo para speculative decoding baseado em aprendizagem por reforço. O speculative decoding é o método mais comum para acelerar a inferência de grandes modelos: prevê rapidamente sequências de tokens usando um “draft model” pequeno, que são então verificados em paralelo por um modelo maior, aproveitando imediatamente os acertos (“hits”) e descartando as falhas (“misses”) para reavaliação. O problema reside no facto de o draft model ser um produto estático treinado offline; uma vez que o tráfego de produção se desvia (devido a upgrades do modelo, alterações nas características demográficas dos utilizadores ou mudanças do tipo de tarefa), a precisão da predição diminui de forma contínua, e o re-treino offline é tanto dispendioso como atrasado. O Aurora redefine o speculative decoding como um problema de aprendizagem por reforço: o draft model serve como a política, o verificador do modelo grande atua como o ambiente, os tokens aceites são recompensas positivas e os tokens rejeitados constituem feedback negativo. O sistema é composto por dois componentes desacoplados: o servidor de inferência, que processa pedidos normalmente e faz stream dos resultados da verificação para um buffer, e o servidor de treino, que puxa dados de forma assíncrona para atualizar os pesos do draft model e os substitui “hot” do lado da inferência sem interromper o serviço. Em testes de tráfego simulado com 40.000 pedidos em cinco domínios (raciocínio matemático, Text-to-SQL, geração de código, finanças e diálogo geral), o Aurora recuperou comprimentos de aceitação em cerca de 10.000 pedidos após mudanças de domínio de tráfego, alcançando um speedup de 1,25 vezes face a um draft model estático bem treinado. Notavelmente, o Aurora, que treina online desde o zero, conseguiu um comprimento de aceitação de 3,08, superando o baseline estático de 2,63 e o baseline de “pré-treinar e depois fazer fine-tuning” de 2,99, com uma taxa de transferência a estabilizar em 302,3 tokens por segundo, desafiando diretamente a noção existente de que “o speculative decoding tem de depender de pré-treino offline em larga escala”. Em testes fim-a-fim, o speculative decoding proporcionou um speedup de 1,92 vezes no Qwen3-Coder-Next (FP8) com batch size de 1, e 1,63 vezes no MiniMax M2.5 (FP8). O antecessor do Aurora, ATLAS, lançou as bases para o speculator adaptativo, e esta atualização resultou num sistema fechado totalmente autónomo. O código foi disponibilizado como open-source no GitHub.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas