Acabei de ver que a equipa Qwen da Alibaba lançou o Qwen-Scope como código aberto, e honestamente este módulo de interpretabilidade parece bastante sólido. Está treinado nos seus modelos Qwen3 e Qwen3.5, portanto basicamente estão a facilitar a compreensão do que acontece dentro destes modelos.



Os casos de uso são bastante interessantes—podes controlar os outputs da inferência, fazer classificação e síntese de dados, otimizar o treino e analisar amostras de avaliação. Não é só teoria, é realmente útil para construtores. Estão a lançar pesos para sete modelos principais, tanto em configurações densas como esparsas, além de 14 conjuntos de pesos de autoencoder esparso.

Qwen a acompanhar o jogo de código aberto. Gostava de saber quantas pessoas realmente vão usar isto para produção versus apenas experimentar.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar