Processus de sélection des ETF et points clés essentiels

robot
Création du résumé en cours
  1. Acquisition des données de base et filtrage initial

Obtention de la liste ETF : via get_all_securities([‘etf’]) pour récupérer tous les ETF du marché, en filtrant ceux créés avant le 1er janvier 2013 (start_date < 2013-01-01), afin d’assurer une donnée historique suffisante.
Exclusion des ETF à faible liquidité : suppression manuelle des ETF spécifiques dont la moyenne des volumes de transaction est trop faible (par exemple, 159003.XSHE ETF de ligne rapide China Merchants, 159005.XSHE ETF de Fast Money Huitianfu, etc., dont la moyenne des volumes ≤ 2,92 kw).

  1. Données quotidiennes des ETF et calcul des rendements

Période de données : récupération des prix de clôture des 240 derniers jours de négociation jusqu’à la date actuelle (today).
Traitement des rendements : calcul du rendement quotidien (pchg = close.pct_change()), formant une matrice de rendement des ETF (prices, lignes = jours de négociation, colonnes = codes ETF).

  1. Clustering K-Means pour la déduplication (basé sur la similarité de tendance)

Objectif du clustering : regrouper les ETF ayant des tendances similaires pour réduire la duplication de sous-jacents.
Paramètres : nombre de clusters n_clusters=30 (pour éviter que des clusters trop peu nombreux n’assemblent des ETF non similaires par erreur), en utilisant l’algorithme KMeans avec un seed aléatoire random_state=42.
Filtrage interne aux clusters : conserver dans chaque cluster l’ETF créé le plus tôt, pour les raisons suivantes :

  • Création ancienne → généralement volume plus élevé (meilleure liquidité) ;
  • Création ancienne → plus de données historiques (utile pour l’entraînement du modèle).
  1. Évaluation de la qualité du clustering par le coefficient de silhouette

Calcul du coefficient de silhouette : 0.4511880967361387 (niveau moyen, indiquant une cohésion interne et une séparation entre clusters acceptable, mais nécessitant une optimisation supplémentaire).

  1. Filtrage secondaire par coefficient de corrélation (pour réduire davantage la corrélation)

Matrice de corrélation : calcul du coefficient de corrélation des rendements ETF (corr = prices[df.code].corr()).
Traitement des paires fortement corrélées : sélection des paires d’ETF avec un coefficient > 0,85, en ne conservant que celui créé le plus tôt dans chaque paire, en éliminant les autres (par exemple, en supprimant 159922.XSHE, 512100.XSHG, etc.).

  1. Optionnel : filtrage des ETF créés plus récemment (pour améliorer la qualité des données)

Seuil : éliminer les ETF créés après 2020 (par exemple, 513060.XSHG Hang Seng Healthcare, 515790.XSHG ETF solaire, etc.), afin de garantir une base de données plus riche en historique (utile pour l’entraînement des modèles).

  1. Précautions et recommandations complémentaires

Traitement spécifique des ETF d’obligations d’État : si utilisés pour l’entraînement, exclure 511010.XSHE ETF d’obligations d’État, dont la tendance est quasi linéaire (similaire à Yu’e Bao), avec une volatilité très faible, ce qui perturberait l’apprentissage du modèle sur les caractéristiques de volatilité, et n’a pas d’intérêt prédictif.
Filtrage des ETF en déclin : la liste finale pourrait inclure des ETF en baisse à long terme (par exemple, ETF de pharmacie, ETF immobilier). La décision de les exclure dépend de l’objectif stratégique :

  • Si l’on vise une rentabilité stable, il faut les éliminer ;
  • Si la stratégie fonctionne bien même avec des ETF en baisse, cela indique une robustesse accrue (mais attention au risque de “future function”, impossible à prévoir si ces ETF se retournent).
    Validation visuelle : tracer les graphiques des ETF restants (par exemple, prix de clôture depuis 2017), pour vérifier manuellement si la corrélation observée correspond aux attentes (faible corrélation, distribution raisonnable).
    Résumé de la logique de filtrage finale :
    Par un processus en quatre étapes — “filtrage initial → déduplication par clustering → second filtrage par coefficient de corrélation → (optionnel) filtrage par date de création” — on obtient un pool d’ETF à bonne liquidité, faible corrélation de tendance, et données historiques riches, visant à fournir une base diversifiée et de haute qualité pour la stratégie ou le modèle.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler