Proceso de filtrado y puntos clave del proceso de selección de ETF

PortfolioAlert · 2026-03-20T13:32:05+00:00

I, Obtención de datos básicos y filtrado preliminarObtener lista de ETF: A través de get_all_securities(['etf']) obtener ETFs de todo el mercado, filtrar los constituidos antes del 1 de enero de 2013 (start_date < 2023-01-01), asegurar suficientes datos históricos.Excluir ETFs de baja liquidez: Eliminar manualmente ETFs específicos con promedio de volumen de transacciones muy bajo (como 159003.XSHE ETF Línea Rápida Merchant, 159005.XSHE ETF Dinero Rápido Huitian, etc., promedio de volumen de transacciones ≤2.92kw).II, Datos de línea diaria de ETF y cálculo de rendimientoRango de datos: Obtener datos de precio de cierre de los 240 días de negociación anteriores a la fecha actual (today).Procesamiento de rendimiento: Calcular rendimiento diario (pchg =

PortfolioAlert

2026-03-20 13:32:05

Uno, obtención de datos básicos y filtrado preliminar

Obtener la lista de ETFs: mediante get_all_securities([‘etf’]) se obtiene todo el mercado de ETFs, filtrando aquellos que se hayan establecido antes del 1 de enero de 2013 (start_date < 2013-01-01), para asegurar datos históricos suficientes.
Excluir ETFs de baja liquidez: eliminar manualmente ETFs específicos con un volumen medio de transacciones muy bajo (como 159003.XSHE招商快线ETF, 159005.XSHE汇添富快钱ETF, etc., cuyo volumen medio ≤ 2.92 kw).

Dos, datos diarios de ETFs y cálculo de rentabilidad
Rango de datos: obtener los precios de cierre de los últimos 240 días de negociación hasta la fecha actual (today).
Procesamiento de rentabilidad: calcular la rentabilidad diaria (pchg = close.pct_change()), formando una matriz de rentabilidad de ETFs (precios, filas= días de negociación, columnas=códigos de ETF).
Tres, agrupamiento K-Means para eliminación de duplicados (basado en similitud de tendencia)
Objetivo del agrupamiento: agrupar ETFs con tendencias similares en una sola categoría, reduciendo la redundancia de activos.
Configuración de parámetros: número de clusters n_clusters=30 (para evitar que pocos clusters agrupen ETFs no similares por error), usando el algoritmo KMeans, con semilla aleatoria random_state=42.
Filtrado dentro de los clusters: conservar en cada cluster el ETF con la fecha de establecimiento más temprana, por las razones de:
Establecimiento temprano → generalmente mayor volumen de transacciones (mejor liquidez);
Establecimiento temprano → más datos históricos (útil para entrenamiento de modelos).
Cuatro, evaluación del efecto del agrupamiento mediante el coeficiente de silueta
Cálculo del coeficiente de silueta: 0.4511880967361387 (nivel medio, indica que la cohesión dentro de los clusters y la separación entre ellos son aceptables, pero se puede optimizar).
Cinco, filtrado secundario por coeficiente de correlación (para reducir aún más la correlación)
Matriz de correlación: calcular la matriz de correlación de las rentabilidades de los ETFs (corr = precios[df.code].corr()).
Manejo de pares altamente correlacionados: filtrar pares de ETFs con coeficiente de correlación > 0.85, conservando solo el ETF con la fecha de establecimiento más temprana en cada par, eliminando los demás (por ejemplo, eliminar 159922.XSHE, 512100.XSHG, etc.).
Seis, opcional: filtrar ETFs que se hayan establecido más tarde (para mejorar la calidad de los datos)
Establecer un umbral: eliminar ETFs establecidos después de 2020 (como 513060.XSHG恒生医疗, 515790.XSHG光伏ETF, etc.), asegurando que los ETFs restantes tengan datos históricos más ricos (aplicable en escenarios de entrenamiento de modelos).
Siete, consideraciones y recomendaciones adicionales
Tratamiento especial de ETFs de bonos del Estado: si se usan para entrenamiento de modelos, eliminar 511010.XSHE国债ETF, ya que su tendencia es casi lineal (similar a Yu’e Bao), con muy poca volatilidad, lo que interferiría en el aprendizaje de las características de fluctuación del modelo y no requiere predicción.
Selección de ETFs en caída: en los resultados puede haber ETFs en tendencia bajista a largo plazo (como ETFs de medicina, inmobiliaria, etc.), la decisión de eliminarlos depende del objetivo de la estrategia:
Si se busca rentabilidad estable, eliminarlos;
Si la estrategia funciona bien incluso con ETFs en caída, puede indicar una alta robustez del método (pero hay que tener en cuenta el riesgo de la “función futura”: no se puede predecir si los ETFs en caída se revertirán).
Verificación visual: graficar la tendencia de los ETFs restantes (como los precios de cierre desde 2017), para inspeccionar manualmente si la correlación y distribución cumplen con las expectativas (baja correlación y distribución razonable).
Resumen de la lógica final de filtrado:
A través de cuatro pasos —“filtrado inicial → agrupamiento para eliminar duplicados → filtrado secundario por coeficiente de correlación → (opcional) filtrado por fecha de establecimiento”— se obtiene un conjunto de ETFs con buena liquidez, baja correlación en tendencia y datos históricos abundantes, cuyo objetivo principal es proporcionar una base diversificada y de alta calidad para estrategias o modelos.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.