Proceso de filtrado y puntos clave del proceso de selección de ETF

robot
Generación de resúmenes en curso
  • Uno, obtención de datos básicos y filtrado preliminar

Obtener la lista de ETFs: mediante get_all_securities([‘etf’]) se obtiene todo el mercado de ETFs, filtrando aquellos que se hayan creado antes del 1 de enero de 2013 (start_date < 2013-01-01), para asegurar datos históricos suficientes.
Excluir ETFs de baja liquidez: eliminar manualmente aquellos ETFs con un volumen medio de transacciones demasiado bajo (como 159003.XSHE招商快线ETF, 159005.XSHE汇添富快钱ETF, etc., con un volumen medio ≤ 2.92 kw).

  • Dos, datos diarios de ETFs y cálculo de rentabilidad
    Rango de datos: obtener los precios de cierre de los últimos 240 días de negociación hasta la fecha actual (today).
    Procesamiento de rentabilidad: calcular la rentabilidad diaria (pchg = close.pct_change()), formando una matriz de rentabilidad de ETFs (precios, filas=días de negociación, columnas=códigos de ETF).
  • Tres, agrupamiento K-Means para eliminar duplicados (basado en similitud de tendencia)
    Objetivo del agrupamiento: agrupar ETFs con tendencias similares en una misma categoría, reduciendo así la redundancia de activos.
    Configuración de parámetros: número de clusters n_clusters=30 (para evitar que pocos clusters agrupen ETFs no similares), usando el algoritmo KMeans, con semilla aleatoria random_state=42.
    Filtrado dentro de los clusters: conservar en cada cluster el ETF con la fecha de creación más temprana, por las razones de:
    Creación temprana → generalmente mayor volumen de transacciones (mejor liquidez);
    Creación temprana → más datos históricos (útil para entrenamiento de modelos).
  • Cuatro, evaluación del efecto del agrupamiento mediante el coeficiente de silueta
    Cálculo del coeficiente de silueta: 0.4511880967361387 (nivel medio, indica que la cohesión dentro de los clusters y la separación entre ellos son aceptables, pero se puede mejorar).
  • Cinco, filtrado secundario por coeficiente de correlación (para reducir aún más la correlación)
    Matriz de correlación: calcular la matriz de correlación de las rentabilidades de los ETFs (corr = precios[df.code].corr()).
    Manejo de pares altamente correlacionados: filtrar pares de ETFs con coeficiente de correlación > 0.85, conservando solo el ETF con fecha de creación más temprana en cada par, eliminando los demás (por ejemplo, eliminar 159922.XSHE, 512100.XSHG, etc.).
  • Seis, opcional: filtrar ETFs creados más tarde (para mejorar la calidad de los datos)
    Establecer un umbral: eliminar ETFs creados después de 2020 (como 513060.XSHG Hengsheng Medical, 515790.XSHG ETF de energía solar, etc.), asegurando que los ETFs restantes tengan datos históricos más completos (apropiado para entrenamiento de modelos).
  • Siete, consideraciones y recomendaciones adicionales
    Tratamiento especial de ETFs de bonos del Estado: si se usan para entrenamiento de modelos, eliminar 511010.XSHE ETF de bonos del Estado, ya que su tendencia es casi lineal (similar a Yu’e Bao), con muy poca volatilidad, lo que interferiría en el aprendizaje de las características de fluctuación del modelo y no aporta predicción.
    Selección de ETFs en caída: en los resultados puede haber ETFs en tendencia bajista a largo plazo (como ETFs de medicina, inmobiliaria, etc.), la decisión de eliminarlos depende del objetivo de la estrategia:
    Si se busca rentabilidad estable, eliminarlos;
    Si la estrategia funciona bien incluso con ETFs en caída, puede indicar una alta robustez, pero hay que tener en cuenta el riesgo de la “función futura”: no se puede predecir si los ETFs en caída se revertirán.
    Verificación visual: graficar la tendencia de los ETFs restantes (por ejemplo, precios de cierre desde 2017), para inspeccionar manualmente si la correlación y distribución cumplen con las expectativas (baja correlación y distribución razonable).
    Resumen de la lógica final de filtrado:
    A través de cuatro pasos —“filtrado inicial → agrupamiento para eliminar duplicados → filtrado secundario por coeficiente de correlación → (opcional) filtrado por fecha de creación”— se obtiene un conjunto de ETFs con buena liquidez, baja correlación en tendencias y datos históricos suficientes, con el objetivo principal de proporcionar activos base diversos y de alta calidad para estrategias o modelos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado