Acho que para gráficos de 1h e acima deve-se usar ridge, mas quando se chega a gráficos de 1min/5min, geralmente o XGBoost vence.
5 minutos precisa de um pouco de afinamento cuidadoso, mas 1 minuto e especialmente segundos você começa a ver o XGBoost dominar por um extra de 0,01-0,025 no seu IC apenas por ser um modelo melhor.
XGBoost é bastante interessante porque você pode evitar valores NaN (, que muitas vezes é um problema para testes retroativos, ou seja, diferentes disponibilidades de conjuntos de dados para períodos de análise, um provedor pode ter 10 anos, outro 2).
Você pode, claro, imputar, mas essa não é a forma mais realista de fazer as coisas e tecnicamente contém lookahead, uma vez que você revela a média/mediana da característica antes do tempo. Você também pode usar uma média livre de lookahead, mas ainda assim...
Para coisas lineares onde você não pode se dar ao luxo de usar o intervalo de tempo de 1h e superior, E onde você quer lidar com NaNs, a melhor aposta é fazer um ensemble ponderado pela IC e recalcular os pesos sempre que houver NaNs ( não é exatamente caro descobrir qual peso deve ser quando você tem a IC de cada recurso e quais recursos estão no conjunto ).
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Notas sobre previsões:
Acho que para gráficos de 1h e acima deve-se usar ridge, mas quando se chega a gráficos de 1min/5min, geralmente o XGBoost vence.
5 minutos precisa de um pouco de afinamento cuidadoso, mas 1 minuto e especialmente segundos você começa a ver o XGBoost dominar por um extra de 0,01-0,025 no seu IC apenas por ser um modelo melhor.
XGBoost é bastante interessante porque você pode evitar valores NaN (, que muitas vezes é um problema para testes retroativos, ou seja, diferentes disponibilidades de conjuntos de dados para períodos de análise, um provedor pode ter 10 anos, outro 2).
Você pode, claro, imputar, mas essa não é a forma mais realista de fazer as coisas e tecnicamente contém lookahead, uma vez que você revela a média/mediana da característica antes do tempo. Você também pode usar uma média livre de lookahead, mas ainda assim...
Para coisas lineares onde você não pode se dar ao luxo de usar o intervalo de tempo de 1h e superior, E onde você quer lidar com NaNs, a melhor aposta é fazer um ensemble ponderado pela IC e recalcular os pesos sempre que houver NaNs ( não é exatamente caro descobrir qual peso deve ser quando você tem a IC de cada recurso e quais recursos estão no conjunto ).