Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Construire un portefeuille de crypto-actifs puissant avec des stratégies multifactorielles : prétraitement des données
Préambule
Dans la dernière partie du livre, nous avons publié le premier article de la série « Building a Strong Crypto Asset Portfolio with Multi-Factor Strategies » - Theoretical Fundamentals, et c’est le deuxième article - Data Preprocessing.
Les données doivent être traitées avant/après le calcul des données factorielles, et avant que la validité du facteur unique ne soit testée. Le prétraitement spécifique des données implique le traitement des valeurs dupliquées, des valeurs aberrantes/des valeurs manquantes/des valeurs extrêmes, de la normalisation et de la fréquence des données.
I. Valeurs dupliquées
Définitions relatives aux données :
Pour diagnostiquer les valeurs dupliquées, il faut d’abord comprendre à quoi « devraient » ressembler les données. Habituellement, les données se présentent sous la forme de :
Principe : Une fois que vous avez déterminé l’index (clé) des données, vous pouvez savoir à quel niveau les données ne doivent pas avoir de valeurs en double.
Méthode de vérification :
1… DataFrame.duplicated(subset=[clé1, clé2, …])
2…merge(df1, df2, on=[key1, key2, …], indicator=True, validate=‘1 :1’)
2. Valeurs aberrantes/Valeurs manquantes/Valeurs extrêmes
Causes courantes des valeurs aberrantes :
Principes de gestion des valeurs aberrantes et manquantes :
L’apprentissage automatique doit être utilisé avec prudence pour le remblayage et risquer un biais de prévision
Gestion des valeurs extrêmes :
En classant l’ordre du plus petit au plus grand, remplacez les données qui dépassent les proportions minimale et maximale par des données critiques. Pour les données avec des données historiques abondantes, cette méthode est relativement grossière et ne s’applique pas, et la suppression forcée d’une proportion fixe de données peut entraîner un certain pourcentage de pertes.
2,3σ / méthode du triple écart-type
L’écart-type σfactor reflète le degré de dispersion de la distribution des données du facteur, c’est-à-dire la volatilité. La plage μ±3×σ a été utilisée pour identifier et remplacer les valeurs aberrantes dans l’ensemble de données, et environ 99,73 % des données se situaient dans la plage. La prémisse de cette méthode est que les données factorielles doivent obéir à une distribution normale, c’est-à-dire X∼N(μ,σ2).
où μ=∑ⁿi₌₁⋅Xi/N, σ²=∑ⁿi₌₁=(xi-μ)²/n, la plage raisonnable des valeurs des facteurs est [μ−3×σ, μ+3×σ].
Effectuez les ajustements suivants pour tous les facteurs de la plage de données :
L’inconvénient de cette méthode est que les données couramment utilisées dans le domaine quantitatif, telles que les prix des actions et les prix des jetons, montrent souvent une distribution de pointe et de queue épaisse, ce qui n’est pas conforme à l’hypothèse d’une distribution normale, et dans ce cas, une grande quantité de données sera identifiée à tort comme des valeurs aberrantes en utilisant la méthode 3σ.
3.绝对值差中位数法(Écart absolu médian, MAD)
La méthode est basée sur le biais médian et absolu, ce qui rend les données traitées moins sensibles aux extrêmes ou aux valeurs aberrantes. Plus robuste que les méthodes basées sur la moyenne et l’écart-type.
Médiane de l’écart absolu MAD=médiane ( ∑ⁿi₌₁(Xi - Xmédian) )
Une plage raisonnable de valeurs de facteur est [Xmedian-n×MAD, Xmedian + n×MAD]. Effectuez les ajustements suivants pour tous les facteurs de la plage de données :
Gestion des cas de valeurs extrêmes des données factorielles
class Extreme(objet) : def init(s, ini_data) : s.ini_data = ini_data
III. Normalisation
x’i=(x−μ)/σ=(X−mean(X)))/std(X)2.Mise à l’échelle min-max
La conversion de chaque facteur en données dans l’intervalle (0,1) permet de comparer des données de tailles ou de plages différentes, mais elle ne modifie pas la distribution dans les données et ne rend pas la somme 1.
x’i=(xi−min(x))/max(x)-min(x)3.排序百分位(Échelonnement des rangs)
Convertissez les entités de données dans leurs classements et convertissez ces classements en scores compris entre 0 et 1, généralement leurs percentiles dans le jeu de données. *
Étant donné que les classements ne sont pas affectés par les valeurs aberrantes, cette méthode n’est pas sensible aux valeurs aberrantes. **
NormRanki=(Rangₓi−min(Rangₓi))/max(Rangₓ)−min(Rangₓ)=Rangₓi/N
min(Rankₓ)=0, où N est le nombre total de points de données dans l’intervalle.
Normaliser les données factorielles
class Scale(objet) : def init(s, ini_data,date) : s.ini_data = ini_data s.date = date
Quatrièmement, la fréquence des données
Parfois, les données obtenues ne sont pas aussi fréquentes que nous en avons besoin pour notre analyse. Par exemple, si le niveau d’analyse est mensuel et que la fréquence des données brutes est quotidienne, vous devez utiliser le « sous-échantillonnage », c’est-à-dire que les données agrégées sont mensuelles.
SOUS-ÉCHANTILLONNAGE
Il s’agit d’agréger les données d’une collection en une ligne de données, par exemple en agrégeant des données quotidiennes en données mensuelles. Dans ce cas, il est nécessaire de considérer les caractéristiques de chaque indicateur agrégé, et les opérations habituelles sont :
Suréchantillonner
Il s’agit de diviser une ligne de données en plusieurs lignes de données, telles que les données annuelles pour l’analyse mensuelle. Il s’agit généralement d’une simple répétition, et il est parfois nécessaire d’agréger les données annuelles au prorata de chaque mois.
Falcon (/) est une nouvelle génération d’infrastructure d’investissement Web3 basée sur un modèle multifactoriel qui aide les utilisateurs à « sélectionner », « acheter », « gérer » et « vendre » des actifs cryptographiques. Falcon a été incubé par Lucida en juin 2022.
D’autres contenus sont disponibles sur le site