20B Small Model Iguala GPT-5 e Opus em Capacidade de Pesquisa: Chroma Lança Modelo de Pesquisa de Agente de Código Aberto Context-1

robot
Geração de resumo em curso

De acordo com a monitorização da 1M AI News, a base de dados vetorial de código aberto Chroma lançou o Context-1, um modelo de pesquisa de agentes com 20 mil milhões de parâmetros, especificamente concebido para tarefas de recuperação com múltiplas voltas. Os pesos do modelo foram disponibilizados em código aberto sob a licença Apache 2.0, e o código para o pipeline de geração de dados sintéticos também está publicamente disponível. O Context-1 é apresentado como um subagente de recuperação: não responde diretamente a perguntas, mas devolve um conjunto de documentos de apoio para modelos de raciocínio a jusante através de pesquisas de múltiplas voltas. A tecnologia central é o «self-editing context» (contexto autoeditável), em que o modelo descarta ativamente fragmentos de documentos irrelevantes durante o processo de pesquisa, libertando espaço dentro de uma janela de contexto limitada para pesquisas subsequentes, evitando assim a degradação de desempenho causada pelo inchaço de contexto. O treino é realizado em duas fases: primeiro, utilizando modelos de grande escala como o Kimi K2.5 para gerar trajetórias de SFT para um aquecimento de afinação fina supervisionada, seguido de treino em mais de 8.000 tarefas sintéticas através de aprendizagem por reforço (com base no algoritmo CISPO). O desenho da recompensa recorre a um mecanismo de currículo, incentivando uma exploração ampla nas fases iniciais e mudando gradualmente para a precisão nas fases posteriores para promover a retenção seletiva. O modelo base é gpt-oss-20b, adaptado com LoRA, e realiza inferência com quantização MXFP4 na B200, alcançando um débito de 400-500 tokens por segundo. Nos quatro benchmarks de domínio construídos por si pela Chroma (web, finanças, direito, email) e nos benchmarks públicos (BrowseComp-Plus, SealQA, FRAMES, HotpotQA), a versão paralela em quatro vias do Context-1 corresponde ou aproxima-se de forma muito próxima das métricas de «taxa de acerto da resposta final» de modelos de ponta como GPT-5.2, Opus 4.5 e Sonnet 4.5; por exemplo, obteve 0,96 no BrowseComp-Plus (em comparação com 0,87 para o Opus 4.5 e 0,82 para o GPT-5.2), enquanto o seu custo e latência são apenas uma fração dos destes últimos. Notavelmente, o modelo foi treinado apenas com dados de web, jurídicos e financeiros, mas ainda assim demonstrou melhorias significativas no domínio de email, que não estava incluído no treino, indicando transferibilidade entre domínios das capacidades de pesquisa.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar