Proceso de filtrado y puntos clave del proceso de selección de ETF

  • Uno, obtención de datos básicos y filtrado preliminar

Obtener la lista de ETFs: mediante get_all_securities([‘etf’]) se obtiene todo el mercado de ETFs, filtrando aquellos que se hayan establecido antes del 1 de enero de 2013 (start_date < 2013-01-01), para asegurar datos históricos suficientes.
Excluir ETFs de baja liquidez: eliminar manualmente ETFs específicos con un volumen medio de transacciones muy bajo (como 159003.XSHE招商快线ETF, 159005.XSHE汇添富快钱ETF, etc., cuyo volumen medio ≤ 2.92 kw).

  • Dos, datos diarios de ETFs y cálculo de rentabilidad
    Rango de datos: obtener los precios de cierre de los últimos 240 días de negociación hasta la fecha actual (today).
    Procesamiento de rentabilidad: calcular la rentabilidad diaria (pchg = close.pct_change()), formando una matriz de rentabilidad de ETFs (precios, filas= días de negociación, columnas=códigos de ETF).
  • Tres, agrupamiento K-Means para eliminación de duplicados (basado en similitud de tendencia)
    Objetivo del agrupamiento: agrupar ETFs con tendencias similares en una sola categoría, reduciendo la redundancia de activos.
    Configuración de parámetros: número de clusters n_clusters=30 (para evitar que pocos clusters agrupen ETFs no similares por error), usando el algoritmo KMeans, con semilla aleatoria random_state=42.
    Filtrado dentro de los clusters: conservar en cada cluster el ETF con la fecha de establecimiento más temprana, por las razones de:
    Establecimiento temprano → generalmente mayor volumen de transacciones (mejor liquidez);
    Establecimiento temprano → más datos históricos (útil para entrenamiento de modelos).
  • Cuatro, evaluación del efecto del agrupamiento mediante el coeficiente de silueta
    Cálculo del coeficiente de silueta: 0.4511880967361387 (nivel medio, indica que la cohesión dentro de los clusters y la separación entre ellos son aceptables, pero se puede optimizar).
  • Cinco, filtrado secundario por coeficiente de correlación (para reducir aún más la correlación)
    Matriz de correlación: calcular la matriz de correlación de las rentabilidades de los ETFs (corr = precios[df.code].corr()).
    Manejo de pares altamente correlacionados: filtrar pares de ETFs con coeficiente de correlación > 0.85, conservando solo el ETF con la fecha de establecimiento más temprana en cada par, eliminando los demás (por ejemplo, eliminar 159922.XSHE, 512100.XSHG, etc.).
  • Seis, opcional: filtrar ETFs que se hayan establecido más tarde (para mejorar la calidad de los datos)
    Establecer un umbral: eliminar ETFs establecidos después de 2020 (como 513060.XSHG恒生医疗, 515790.XSHG光伏ETF, etc.), asegurando que los ETFs restantes tengan datos históricos más ricos (aplicable en escenarios de entrenamiento de modelos).
  • Siete, consideraciones y recomendaciones adicionales
    Tratamiento especial de ETFs de bonos del Estado: si se usan para entrenamiento de modelos, eliminar 511010.XSHE国债ETF, ya que su tendencia es casi lineal (similar a Yu’e Bao), con muy poca volatilidad, lo que interferiría en el aprendizaje de las características de fluctuación del modelo y no requiere predicción.
    Selección de ETFs en caída: en los resultados puede haber ETFs en tendencia bajista a largo plazo (como ETFs de medicina, inmobiliaria, etc.), la decisión de eliminarlos depende del objetivo de la estrategia:
    Si se busca rentabilidad estable, eliminarlos;
    Si la estrategia funciona bien incluso con ETFs en caída, puede indicar una alta robustez del método (pero hay que tener en cuenta el riesgo de la “función futura”: no se puede predecir si los ETFs en caída se revertirán).
    Verificación visual: graficar la tendencia de los ETFs restantes (como los precios de cierre desde 2017), para inspeccionar manualmente si la correlación y distribución cumplen con las expectativas (baja correlación y distribución razonable).
    Resumen de la lógica final de filtrado:
    A través de cuatro pasos —“filtrado inicial → agrupamiento para eliminar duplicados → filtrado secundario por coeficiente de correlación → (opcional) filtrado por fecha de establecimiento”— se obtiene un conjunto de ETFs con buena liquidez, baja correlación en tendencia y datos históricos abundantes, cuyo objetivo principal es proporcionar una base diversificada y de alta calidad para estrategias o modelos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado