Memorando interno da Tencent revelado: o último modelo Hy3 usou código Claude na fase de pós-treinamento

De acordo com o monitoramento da Dongcha Beating, a The Information citou fontes familiarizadas com o assunto e um memorando interno da Tencent revelando que funcionários da Tencent usaram o Claude Code da Anthropic durante a fase pós-treinamento do desenvolvimento do modelo Hy3, apesar de a Anthropic proibir explicitamente serviços comerciais para empresas chinesas por motivos de segurança nacional. Hy3 é o modelo de linguagem grande mais poderoso da Tencent até hoje, apresentando uma arquitetura MoE de 295 bilhões de parâmetros, e foi desenvolvido sob a liderança do Cientista Chefe de IA Yao Shunyu, que ingressou na Tencent no final do ano passado. Durante a fase de RLHF (Aprendizado por Reforço a partir de Feedback Humano), a Tencent organizou funcionários para atuarem como avaliadores humanos, e o memorando interno forneceu diretrizes de instalação para o Claude Code, com um limite de uso de ‘milhares de tokens’ por pessoa. Os funcionários da Tencent não consideraram isso uma destilação (treinar um modelo mais fraco usando as saídas de um modelo mais forte). A abordagem deles envolvia fazer as mesmas perguntas de programação a dois modelos anônimos e realizar avaliações às cegas; simultaneamente, usaram o Claude Code para gerar exemplos comportamentais de alta qualidade em tempo real como referências para ajudar a filtrar respostas de baixa qualidade. Funcionários de várias empresas de IA confirmaram que usar modelos líderes do setor como referências de benchmark durante o pós-treinamento é uma prática comum. Um porta-voz da Anthropic afirmou que a equipe de segurança da empresa ‘monitoriza ativamente ataques de destilação e toma ações imediatas ao descobrir’, mas não abordou diretamente o uso do Claude Code pela Tencent. Uma forma comum de empresas e desenvolvedores chineses acessarem o Claude é através de intermediários ou registrando-se com números de telefone ou cartões de crédito não chineses. No início deste mês, a Anthropic reforçou seus requisitos de verificação, com alguns usuários precisando fornecer fotos de documentos emitidos pelo governo e fotos pessoais.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar