Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Construindo um poderoso portfólio de criptoativos com estratégias multifatoriais: pré-processamento de dados
Preâmbulo
Na última parte do livro, publicamos o primeiro artigo da série “Building a Strong Crypto Asset Portfolio with Multi-Factor Strategies” - Fundamentos Teóricos, e este é o segundo artigo - Pré-processamento de Dados.
Os dados devem ser tratados antes/depois do cálculo dos dados dos fatores e antes de se testar a validade do fator único. O pré-processamento de dados específicos envolve o processamento de valores duplicados, valores atípicos/ausentes/valores extremos, normalização e frequência de dados.
I. Valores duplicados
Definições relacionadas a dados:
O diagnóstico de valores duplicados começa com a compreensão de como os dados “devem” parecer. Normalmente, os dados assumem a forma de:
Princípio: Depois de determinar o índice (chave) dos dados, você pode saber em que nível os dados não devem ter valores duplicados.
Método de verificação:
PD. DataFrame.duplicated(subset=[key1, key2, …])
pd.merge(df1, df2, on=[key1, key2, …], indicator=True, validate=‘1:1’)
2. Outliers/Valores em Falta/Valores Extremos
Causas comuns de valores anómalos:
Princípios de tratamento para valores anómalos e em falta:
O aprendizado de máquina deve ser usado com cautela para preencher e arriscar um viés de antecipação
Manipulação de valores extremos:
Ao organizar a ordem do menor para o maior, substitua os dados que excedem as proporções mínima e máxima por dados críticos. Para dados com dados históricos abundantes, este método é relativamente aproximado e não aplicável, e a eliminação forçada de uma proporção fixa de dados pode causar uma certa percentagem de perdas.
2,3σ / método do desvio padrão triplo
O desvio padrão σfactor reflete o grau de dispersão da distribuição dos dados do fator, ou seja, volatilidade. O intervalo de μ±3×σ foi usado para identificar e substituir outliers no conjunto de dados, e cerca de 99,73% dos dados caíram no intervalo. A premissa deste método é que os dados fatoriais devem obedecer a uma distribuição normal, ou seja, X∼N(μ,σ2).
onde μ=∑ⁿi₌₁⋅Xi/N, σ²=∑ⁿi₌₁=(xi-μ)²/n, o intervalo razoável de valores de fatores é [μ−3×σ, μ+3×σ].
Faça os seguintes ajustes em todos os fatores no intervalo de dados:
A desvantagem deste método é que os dados comumente usados no campo quantitativo, como preços de ações e preços de tokens, muitas vezes mostram uma distribuição spike e thick-tail, que não está de acordo com a suposição de distribuição normal, e neste caso, uma grande quantidade de dados será identificada incorretamente como outliers usando o método 3σ.
3.绝对值差中位数法(Desvio Absoluto Mediano, MAD)
O método baseia-se em enviesamentos medianos e absolutos, tornando os dados processados menos sensíveis a extremos ou valores anómalos. Mais robusto do que métodos baseados em média e desvio padrão.
Mediana do desvio absoluto MAD=mediana ( ∑ⁿi₌₁(Xi - Xmedian) )
Um intervalo razoável de valores de fatores é [Xmedian-n×MAD, Xmedian + n×MAD]. Faça os seguintes ajustes em todos os fatores no intervalo de dados:
Tratamento de casos de valor extremo de dados de fatores
classe Extreme(object): def init(s, ini_data): s.ini_data = ini_data
III. Padronização
x’i=(x−μ)/σ=(X−média(X)))/std(X)2.Escala Min-Max
A conversão de cada fator em dados no intervalo (0,1) permite a comparação de dados de diferentes tamanhos ou intervalos, mas não altera a distribuição dentro dos dados e não faz a soma 1.
x’i=(xi−min(x))/max(x)-min(x)3.排序百分位(Escalonamento de classificação)
Converta recursos de dados em suas classificações e converta essas classificações em pontuações entre 0 e 1, normalmente seus percentis no conjunto de dados. *
Uma vez que as classificações não são afetadas por valores anómalos, este método não é sensível a valores anómalos. **
NormRanki=(Rankₓi−min(Rankₓi))/max(Rankₓ)−min(Rankₓ)=Rankₓi/N
min(Rankₓ)=0, onde N é o número total de pontos de dados no intervalo.
Normalizar dados de fatores
classe Scale(object): def init(s, ini_data, data): s.ini_data = ini_data s.date = data
Quarto, frequência dos dados
Por vezes, os dados obtidos não são tão frequentes como necessitamos para a nossa análise. Por exemplo, se o nível de análise é mensal e a frequência dos dados brutos é diária, você precisa usar “downsampling”, ou seja, os dados agregados são mensais.
REDUÇÃO DA AMOSTRAGEM
Refere-se à agregação de dados em uma coleção em uma linha de dados, como agregar dados diários em dados mensais. Neste caso, é necessário considerar as características de cada indicador agregado, e as operações usuais são:
Upsample
Refere-se à divisão de uma linha de dados em várias linhas de dados, como dados anuais para análise mensal. Esta é geralmente uma simples repetição e, por vezes, é necessário agregar os dados anuais proporcionalmente a cada mês.
Falcon ( /) é uma nova geração de infraestrutura de investimento Web3 que é baseada em um modelo multifator que ajuda os usuários a “selecionar”, “comprar”, “gerenciar” e “vender” criptoativos. Falcon foi incubado por Lucida em junho de 2022.
Mais conteúdo está disponível para visitar