Memorando interno de Tencent filtrado: el último modelo Hy3 utilizó Claude Code en la fase posterior de entrenamiento

robot
Generación de resúmenes en curso

Según Beating Monitoring, 《The Information》 cita a personas con conocimiento y a un memorando interno de Tencent que revela que los empleados de Tencent usaron Claude Code de Anthropic en la fase de post-entrenamiento del desarrollo del modelo Hy3, a pesar de que Anthropic prohíbe explícitamente ofrecer servicios comerciales a empresas chinas por motivos de seguridad nacional.

Hy3 es el modelo de lenguaje grande más potente de la serie Mengyuan de Tencent hasta la fecha, con una arquitectura MoE de 295 mil millones de parámetros, incorporada a finales del año pasado y liderada por el principal científico de IA de Tencent, Yao Shunyu. En la fase de RLHF (aprendizaje por refuerzo con retroalimentación humana), Tencent organizó a empleados para actuar como evaluadores humanos, y un memorando interno proporcionó instrucciones para instalar Claude Code, con un límite de uso de «unos pocos miles de tokens» por persona.

Los empleados de Tencent no consideran esto como distilación (entrenar un modelo débil con la salida de un modelo fuerte). Su método consiste en presentar la misma pregunta de programación a dos modelos anónimos, realizar una evaluación ciega; al mismo tiempo, usar Claude Code para generar en tiempo real ejemplos de comportamiento de alta calidad como referencia, ayudando a filtrar respuestas de baja calidad. Varios empleados de empresas de IA confirmaron que usar modelos líderes en la industria como referencia en el post-entrenamiento es una práctica común.

Un portavoz de Anthropic afirmó que el equipo de seguridad de la compañía «monitorea activamente los ataques de distilación y toma medidas inmediatas al detectarlos», pero no respondió directamente sobre el uso de Claude Code por parte de Tencent. Las formas comunes en que las empresas y desarrolladores chinos acceden a Claude son a través de intermediarios, registros con números de teléfono no chinos o tarjetas de crédito. A principios de este mes, Anthropic ya reforzó los requisitos de verificación de identidad, exigiendo a algunos usuarios que proporcionen una identificación emitida por el gobierno y una foto del propio usuario.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado