Creo que para gráficos de 1 hora y superiores deberías usar ridge, pero cuando llegas a gráficos de 1 minuto/5 minutos, usualmente encuentras que XGBoost gana.
5 minutos necesita un poco de ajuste cuidadoso, pero 1 minuto y especialmente segundos comienzas a ver a XGBoost dominar por un extra de 0.01-0.025 en tu IC al ser un mejor modelo.
XGBoost es bastante genial porque puedes evitar valores NaN ( lo cual es a menudo un problema para las pruebas retrospectivas, es decir, diferentes disponibilidades de conjuntos de datos para los retrocesos, un proveedor puede tener 10 años, otro 2).
Puedes, por supuesto, imputar, pero esa no es la forma más realista de hacer las cosas y técnicamente tiene adelanto ya que revelas la media/mediana de la característica por adelantado. También puedes usar una media libre de adelanto, pero aún así...
Para cosas lineales donde no puedes permitirte el ajuste en un marco de tiempo de 1 hora o superior, Y donde deseas lidiar con NaNs, tu mejor opción es hacer un ensamblaje ponderado por IC y recalcular los pesos cada vez que haya NaNs ( no es exactamente caro averiguar qué peso debería ser qué cuando tienes el IC de cada característica y qué características están en el conjunto ).
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Notas sobre pronósticos:
Creo que para gráficos de 1 hora y superiores deberías usar ridge, pero cuando llegas a gráficos de 1 minuto/5 minutos, usualmente encuentras que XGBoost gana.
5 minutos necesita un poco de ajuste cuidadoso, pero 1 minuto y especialmente segundos comienzas a ver a XGBoost dominar por un extra de 0.01-0.025 en tu IC al ser un mejor modelo.
XGBoost es bastante genial porque puedes evitar valores NaN ( lo cual es a menudo un problema para las pruebas retrospectivas, es decir, diferentes disponibilidades de conjuntos de datos para los retrocesos, un proveedor puede tener 10 años, otro 2).
Puedes, por supuesto, imputar, pero esa no es la forma más realista de hacer las cosas y técnicamente tiene adelanto ya que revelas la media/mediana de la característica por adelantado. También puedes usar una media libre de adelanto, pero aún así...
Para cosas lineales donde no puedes permitirte el ajuste en un marco de tiempo de 1 hora o superior, Y donde deseas lidiar con NaNs, tu mejor opción es hacer un ensamblaje ponderado por IC y recalcular los pesos cada vez que haya NaNs ( no es exactamente caro averiguar qué peso debería ser qué cuando tienes el IC de cada característica y qué características están en el conjunto ).