Memorando interno de Tencent revelado: el último modelo Hy3 utilizó código Claude en la fase de post-entrenamiento

Según la monitorización de Dongcha Beating, The Information citó fuentes familiarizadas con el asunto y un memorando interno de Tencent que revela que los empleados de Tencent usaron Claude Code de Anthropic durante la fase post-entrenamiento del desarrollo del modelo Hy3, a pesar de que Anthropic prohíbe explícitamente los servicios comerciales a empresas chinas por motivos de seguridad nacional. Hy3 es el modelo de lenguaje grande más potente de Tencent hasta la fecha, con una arquitectura MoE de 295 mil millones de parámetros, y fue desarrollado bajo la dirección del Científico Jefe de IA Yao Shunyu, quien se unió a Tencent a finales del año pasado. Durante la fase RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana), Tencent organizó a empleados para actuar como evaluadores humanos, y el memorando interno proporcionó directrices de instalación para Claude Code, con un límite de uso de ‘miles de tokens’ por persona. Los empleados de Tencent no consideraron esto como destilación (entrenar un modelo más débil usando las salidas de un modelo más fuerte). Su enfoque consistió en plantear las mismas preguntas de programación a dos modelos anónimos y realizar evaluaciones a ciegas; simultáneamente, usaron Claude Code para generar ejemplos de comportamiento de alta calidad en tiempo real como referencias para ayudar a filtrar respuestas de baja calidad. Empleados de varias empresas de IA confirmaron que usar modelos líderes de la industria como referencias de referencia durante el post-entrenamiento es una práctica común. Un portavoz de Anthropic afirmó que el equipo de seguridad de la compañía ‘monitorea activamente los ataques de destilación y toma medidas inmediatas al descubrirlo’, pero no abordó directamente el uso de Claude Code por parte de Tencent. Una forma común para que las empresas y desarrolladores chinos accedan a Claude es a través de intermediarios o registrándose con números de teléfono o tarjetas de crédito no chinos. A principios de este mes, Anthropic reforzó sus requisitos de verificación, con algunos usuarios que necesitan proporcionar fotos de identificación emitidas por el gobierno y fotos personales.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado