Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Creación de una potente cartera de criptoactivos con estrategias multifactoriales: preprocesamiento de datos
Preámbulo
En la última parte del libro, publicamos el primer artículo de la serie “Construyendo una cartera sólida de criptoactivos con estrategias multifactoriales” - Fundamentos teóricos, y este es el segundo artículo - Preprocesamiento de datos.
Los datos deben procesarse antes o después del cálculo de los datos factoriales y antes de probar la validez del factor único. El preprocesamiento de datos específicos implica el procesamiento de valores duplicados, valores atípicos/valores faltantes/valores extremos, normalización y frecuencia de datos.
I. Valores duplicados
Definiciones relacionadas con los datos:
El diagnóstico de valores duplicados comienza con la comprensión de cómo “deberían” verse los datos. Por lo general, los datos se presentan en forma de:
Principio: Una vez que haya determinado el índice (clave) de los datos, puede saber en qué nivel los datos no deben tener valores duplicados.
Método de comprobación:
PD. DataFrame.duplicated(subset=[key1, key2, …])
pd.merge(df1, df2, on=[key1, key2, …], indicator=True, validate=‘1:1’)
2. Valores atípicos/Valores faltantes/Valores extremos
Causas comunes de valores atípicos:
Principios de manejo de valores atípicos y valores faltantes:
El aprendizaje automático debe usarse con precaución para reponer y arriesgarse a un sesgo de anticipación
Manejo de valores extremos:
Al organizar el orden de menor a mayor, reemplace los datos que superen las proporciones mínima y máxima con datos críticos. En el caso de los datos con abundantes datos históricos, este método es relativamente aproximado y no es aplicable, y la eliminación forzada de una proporción fija de datos puede causar un cierto porcentaje de pérdidas.
2.3σ / método de triple desviación estándar
La desviación estándar σfactor refleja el grado de dispersión de la distribución de datos del factor, es decir, la volatilidad. El rango de μ±3×σ se utilizó para identificar y reemplazar valores atípicos en el conjunto de datos, y aproximadamente el 99,73 % de los datos se encontraban en el rango. La premisa de este método es que los datos factoriales deben obedecer a una distribución normal, es decir, X∼N(μ,σ2).
donde μ=∑ⁿi₌₁⋅Xi/N, σ²=∑ⁿi₌₁=(xi-μ)²/n, el rango razonable de valores de los factores es [μ−3×σ, μ+3×σ].
Realice los siguientes ajustes en todos los factores del rango de datos:
La desventaja de este método es que los datos comúnmente utilizados en el campo cuantitativo, como los precios de las acciones y los precios de los tokens, a menudo muestran una distribución de picos y colas gruesas, que no se ajusta a la suposición de la distribución normal y, en este caso, una gran cantidad de datos se identificarán incorrectamente como valores atípicos utilizando el método 3σ.
3.绝对值差中位数法(Desviación Absoluta Mediana, MAD)
El método se basa en el sesgo mediano y absoluto, lo que hace que los datos procesados sean menos sensibles a los extremos o valores atípicos. Más robusto que los métodos basados en la media y la desviación estándar.
Mediana de la desviación absoluta MAD=mediana ( ∑ⁿi₌₁(Xi - Xmediana) )
Un rango razonable de valores factoriales es [Xmedian-n×MAD, Xmediana + n×MAD]. Realice los siguientes ajustes en todos los factores del rango de datos:
Manejo de casos de valores extremos de datos factoriales
class Extreme(object): def init(s, ini_data): s.ini_datos = ini_data
III. Estandarización
x’i=(x−μ)/σ=(X−mean(X)))/std(X)2.Escala mínima-máxima
La conversión de cada factor en datos en el intervalo (0,1) permite la comparación de datos de diferentes tamaños o rangos, pero no cambia la distribución dentro de los datos y no hace que la suma sea 1.
x’i=(xi−min(x))/max(x)-min(x)3.排序百分位(Escala de rangos)
Convierta las entidades de datos en sus clasificaciones y convierta esas clasificaciones en puntuaciones entre 0 y 1, normalmente sus percentiles en el dataset. *
Dado que las clasificaciones no se ven afectadas por los valores atípicos, este método no es sensible a los valores atípicos. **
NormRanki=(Rangoₓi−min(Rangoₓi))/max(Rangoₓ)−min(Rangoₓ)=Rangoₓi/N
min(Rankₓ)=0, donde N es el número total de puntos de datos en el intervalo.
Normalizar los datos de los factores
class Scale(object): def init(s, ini_data, fecha): s.ini_datos = ini_data s.fecha = fecha
Cuarto, frecuencia de datos
A veces los datos obtenidos no son tan frecuentes como necesitamos para nuestro análisis. Por ejemplo, si el nivel de análisis es mensual y la frecuencia de los datos sin procesar es diaria, debe utilizar el “downsampling”, es decir, los datos agregados son mensuales.
REDUCCIÓN DE MUESTREO
Se refiere a la agregación de datos de una colección en una fila de datos, como la agregación de datos diarios en datos mensuales. En este caso, es necesario considerar las características de cada indicador agregado, y las operaciones habituales son:
Muestra superior
Se refiere a dividir una fila de datos en varias filas de datos, como datos anuales para análisis mensuales. Esto suele ser una simple repetición, y a veces es necesario agregar los datos anuales en proporción a cada mes.
Falcon ( /) es una nueva generación de infraestructura de inversión Web3 que se basa en un modelo multifactor que ayuda a los usuarios a “seleccionar”, “comprar”, “gestionar” y “vender” criptoactivos. Falcon fue incubado por Lucida en junio de 2022.
Hay más contenido disponible para visitar