¡El Rey Transformer ha vuelto! Sin modificar ningún módulo, la previsión de tiempos conduce a todos los ámbitos

2023-10-19 08:55:30

Fuente original: Shin Ji Yuan

Fuente de la imagen: Generado por Unbounded AI

En los últimos años, Transformer ha realizado continuos avances en tareas de procesamiento de lenguaje natural y visión por computadora, y se ha convertido en un modelo básico en el campo del aprendizaje profundo.

Inspirados en esto, se han propuesto numerosas variantes del modelo Transformer en el campo de las series temporales.

Sin embargo, un número creciente de estudios recientes han encontrado que el uso de un modelo predictivo simple basado en capas lineales puede lograr mejores resultados que todo tipo de transformadores mágicos.

Recientemente, en respuesta a las preguntas sobre la efectividad de Transformer en el campo de la predicción de series temporales, el Laboratorio de Aprendizaje Automático de la Escuela de Software de la Universidad de Tsinghua y los académicos de Ant Group publicaron conjuntamente un trabajo de predicción de series temporales, que provocó acaloradas discusiones en Reddit y otros foros.

Entre ellos, el iTransformer propuesto por el autor, considerando las características de los datos de las series temporales multidimensionales, no modifica ningún módulo de Transformer, sino que rompe la estructura del modelo convencional, y ha logrado una ventaja integral en tareas complejas de predicción de series temporales, tratando de resolver los puntos débiles de los datos de series temporales de modelado de Transformers.

Dirección del papel:

Implementación de código:

Con la bendición de iTransformer, Transformer ha completado una inversión completa en la tarea de predicción de series temporales.

Antecedentes de la cuestión

Los datos de series temporales del mundo real tienden a ser multidimensionales, incluyendo dimensiones variables además de la dimensión temporal.

Cada variable puede representar una magnitud física observada diferente, como múltiples indicadores meteorológicos utilizados en la predicción meteorológica (velocidad del viento, temperatura, humedad, presión atmosférica, etc.), o puede representar diferentes sujetos de observación, como la generación de energía por hora de diferentes equipos en una central eléctrica.

En general, diferentes variables tienen significados físicos completamente diferentes, e incluso si la semántica es la misma, sus unidades de medida pueden ser completamente diferentes.

En el pasado, los modelos predictivos basados en Transformers solían incrustar múltiples variables en el mismo momento en el Temporal Token, utilizaban una red feed-forward para codificar las características de cada momento y utilizaban el módulo de atención para aprender la correlación entre diferentes momentos.

Sin embargo, este enfoque puede tener los siguientes problemas:

Ideas de diseño

A diferencia de cada palabra (Token) en lenguaje natural con una fuerte información semántica independiente, cada "Token Temporal" visto desde la perspectiva del Transformer existente a menudo carece de semanticidad en la misma secuencia de datos de series temporales, y se enfrenta a problemas como la falta de alineación de las marcas de tiempo y campos receptivos demasiado pequeños.

En otras palabras, las capacidades de modelado de los transformadores tradicionales en series de tiempo se han debilitado considerablemente.

Para ello, los autores proponen una perspectiva completamente nueva de la invertida.

Como se muestra en la siguiente figura, al invertir el módulo original de Transformer, iTransformer primero mapea toda la secuencia de la misma variable en una representación de características de alta dimensión (iate Token), y el vector de características obtenido toma la variable como el cuerpo principal descrito y representa de forma independiente el proceso histórico que refleja.

Después de eso, el módulo de atención puede modelar naturalmente la correlación múltiple, y la red feedforward codifica las características de las observaciones históricas capa por capa en la dimensión de tiempo, y mapea las características aprendidas en predicciones futuras.

Por el contrario, LayerNorm, que no se ha explorado en profundidad en datos de series temporales en el pasado, también desempeñará un papel crucial en la eliminación de las diferencias de distribución entre variables.

iTransformer

Estructura general

A diferencia de la estructura de codificador-decodificador más compleja utilizada en los modelos de predicción de Transformer anteriores, iTransformer solo contiene codificadores, incluidas las capas de incrustación, las capas de proyección (Projector) y los módulos de transformador apilables (TrmBlock).

Representación de características de variables de modelado

Para una serie temporal multidimensional con una duración temporal y un número de variables, el artículo utiliza todas las variables que representan el mismo momento en el tiempo, y una secuencia de observación histórica completa que representa la misma variable.

Teniendo en cuenta que tiene una semántica más fuerte y unidades de medida relativamente consistentes, diferentes de la forma anterior de incrustar características, este método utiliza la capa de incrustación para mapear cada característica de forma independiente para obtener la representación de características de cada variable, que contiene el cambio de serie temporal de la variable en el tiempo pasado.

Esta representación de características primero interactuará la información entre las variables a través del mecanismo de autoatención en cada capa del módulo Transformer, unificará la distribución de características de diferentes variables utilizando la normalización de capas y llevará a cabo la codificación de características completamente conectadas en la red de realimentación. Por último, el resultado de la predicción se asigna mediante una capa de proyección.

Con base en el proceso anterior, la implementación de todo el modelo es muy simple y el proceso de cálculo se puede expresar como:

Entre ellos, se implementan los resultados de predicción correspondientes a cada variable, la capa de incrustación y la capa de proyección en base al perceptrón multicapa (MLP).

Vale la pena señalar que debido a que el orden entre los puntos de tiempo ya está implícito en el orden en que se organizan las neuronas, el modelo no necesita introducir la incrustación de posición en el transformador.

Análisis de módulos

Después de invertir las dimensiones del procesamiento de datos de series temporales del módulo Transformer, este trabajo revisa las responsabilidades de cada módulo en iTransformer.

**1. Normalización de capas: ** La normalización de capas se propuso originalmente para mejorar la estabilidad y la convergencia del entrenamiento profundo de la red.

En el Transformer anterior, el módulo normalizaba múltiples variables al mismo tiempo, lo que hacía que cada variable fuera indistinguible. Una vez que los datos recopilados no están alineados en el tiempo, la operación también introduce ruido de interacción entre procesos acausales o retrasados.

En la versión invertida (la fórmula es la anterior), la normalización de capas se aplica a la representación de características de cada variable (token iate), de modo que los canales de características de todas las variables están bajo una distribución relativamente uniforme.

Esta idea de normalización ha demostrado ampliamente su eficacia en el tratamiento de problemas no estacionarios de series temporales, pero se puede implementar de forma natural en iTransformer a través de la normalización de capas.

Además, dado que las representaciones de características de todas las variables se normalizan a una distribución normal, se pueden reducir las diferencias causadas por diferentes rangos de valores de variables.

En su lugar, en la estructura anterior, el token temporal de todas las marcas de tiempo se normalizaría uniformemente, lo que daría como resultado que el modelo viera realmente una serie temporal demasiado suave.

**2. Redes de realimentación: El transformador codifica vectores de palabras mediante redes de realimentación.

El vector de "palabras" formado en el modelo anterior consistía en múltiples variables recogidas al mismo tiempo, y su tiempo de generación puede no ser consistente, y es difícil que las "palabras" que reflejan un paso de tiempo proporcionen suficiente semántica.

En la versión invertida, el vector "palabra" está formado por toda la secuencia de la misma variable, basado en el teorema de representación universal del perceptrón multicapa, que tiene una capacidad de modelo lo suficientemente grande como para extraer las características temporales compartidas en observaciones históricas y predicciones futuras, y utiliza la extrapolación de características como resultados de predicción.

Otra base para el uso de redes feedforward para modelar la dimensión temporal proviene de investigaciones recientes que encontraron que las capas lineales son buenas para aprender las características temporales que posee cualquier serie temporal.

Los autores proponen una explicación plausible: las neuronas de la capa lineal pueden aprender a extraer propiedades intrínsecas de series temporales arbitrarias, como espectros de amplitud, periodicidad e incluso frecuencia (la transformada de Fourier es esencialmente un mapa totalmente conectado sobre la secuencia original).

Por lo tanto, en comparación con la práctica anterior de Transformer que utiliza el mecanismo de atención para modelar las dependencias de series temporales, es más probable que el uso de redes de retroalimentación complete la generalización en secuencias no vistas.

**3. Autoatención: El módulo de autoatención se utiliza en este modelo para modelar la correlación de diferentes variables, lo cual es extremadamente importante en escenarios de predicción complejos impulsados por el conocimiento físico, como el pronóstico del tiempo.

Los autores encontraron que cada posición del Mapa de Atención satisface la siguiente fórmula:

Correspondiente a los vectores Query y Key de dos variables cualesquiera, el autor cree que todo el mapa de atención puede revelar la correlación de las variables hasta cierto punto, y en operaciones de ponderación posteriores basadas en mapas de atención, las variables altamente correlacionadas ganarán mayor peso en la interacción con sus vectores de valor, por lo que este diseño es más natural e interpretable para el modelado de datos de series temporales multidimensionales.

En resumen, en iTransformer, la normalización de capas, la red de retroalimentación y el módulo de autoatención consideran las características de los datos de series temporales multidimensionales en sí, y los tres cooperan sistemáticamente entre sí para adaptarse a las necesidades de modelado de diferentes dimensiones y jugar el efecto de 1 + 1 + 1 > 3.

Análisis experimental

Los autores llevaron a cabo extensos experimentos en seis puntos de referencia de pronóstico de series temporales multidimensionales, e hicieron predicciones en los datos (Mercado) del escenario de tareas de predicción de carga de servicios en línea de la plataforma de negociación Alipay.

La parte experimental compara 10 modelos predictivos diferentes, incluidos modelos de transformadores representativos de dominio: PatchTST (2023), Crossformer (2023), FEDformer (2022), Stationary (2022), Autoformer (2021), Informer (2021); Modelos de predicción lineal: TiDE (2023), DLinear (2023); Modelos TCN: TimesNet (2023), SCINet (2022).

Además, el artículo analiza las ganancias aportadas por la inversión de módulos a muchas variantes de Transformer, incluida la mejora del efecto general, la generalización a variables desconocidas y un uso más completo de las observaciones históricas.

Pronóstico de series temporales

Como se muestra en el gráfico de radar de apertura, iTransformer logró SOTA en los seis puntos de referencia de prueba y logró resultados óptimos en escenarios 28/30 de datos de mercado (consulte el apéndice del documento para obtener más detalles).

En el desafiante escenario de la predicción a largo plazo y la predicción temporal multidimensional, iTransformer ha superado ampliamente los modelos de predicción de los últimos años.

Aspectos comunes del marco iTransformer

Al mismo tiempo que obtenía los mejores resultados, el autor llevó a cabo experimentos comparativos antes y después de la inversión en modelos variantes de Transformer como Reformer, Informer, Flowformer y Flashformer, que demostraron que la inversión es un marco estructural más acorde con las características de los datos de series temporales.

1. Mejorar las previsiones

Al introducir el marco propuesto, estos modelos han logrado mejoras significativas en los efectos de predicción, lo que demuestra la versatilidad de las ideas centrales de iTransformer y la viabilidad de beneficiarse del progreso de la investigación de la atención eficiente.

2. Generalizar a variables desconocidas

Al invertir, el modelo puede ingresar un número diferente de variables que el entrenamiento cuando se hace inferencia, y el artículo lo compara con una estrategia de generalización, Channel Independence, y los resultados muestran que el marco aún puede minimizar los errores de generalización cuando se usa solo el 20% de las variables.

3. Utilizar observaciones históricas más largas

En el pasado, el efecto de predicción del modelo Transformer no necesariamente mejoraba con la duración de la observación histórica, pero los autores encontraron que después de usar este marco, el modelo mostró una tendencia sorprendente de reducción de errores de predicción en el caso de una observación histórica creciente, lo que verificó la racionalidad de la inversión de módulos hasta cierto punto.

Análisis del modelo

1. Modelo de experimento de ablación

Los autores llevaron a cabo experimentos de ablación para verificar la racionalidad de la disposición del módulo iTransformer.

Los resultados muestran que el método de modelado de usar la autoatención en la dimensión variable y la capa lineal en la dimensión temporal logra el mejor efecto en la mayoría de los conjuntos de datos.

2. Análisis de representación de características

Con el fin de verificar la idea de que las redes feedforward pueden extraer mejor las características de la secuencia, los autores realizan un análisis de representación de características basado en la similitud CKA (Centered Kernel Alignment). Cuanto menor sea la similitud de CKA, mayor será la diferencia de características entre las capas inferior y superior del modelo.

Vale la pena señalar que estudios anteriores han demostrado que la predicción de series temporales, como una tarea de aprendizaje de características de grano fino, tiende a preferir una mayor similitud con CKA.

Los autores calculan el CKA de bajo y alto nivel del modelo antes y después de la inversión, y obtienen los siguientes resultados, que confirman que iTransformer aprende mejores características de secuencia, logrando así mejores efectos de predicción.

3. Análisis de correlación de variables

Como se muestra en la figura anterior, el mecanismo de atención que actúa sobre la dimensión variable muestra una mayor interpretabilidad en el mapa de atención aprendido. Al visualizar una muestra del conjunto de datos de energía solar, se realizan las siguientes observaciones:

En el módulo de atención superficial, el gráfico de atención aprendida es más similar a la correlación variable de secuencias históricas.
Al prestar atención profunda al módulo, el mapa de atención aprendida es más similar a la correlación variable de la secuencia a predecir.

Esto muestra que el módulo de atención aprende correlaciones de variables más interpretables, codifica las características temporales de las observaciones históricas en la red feedforward y puede decodificarlas gradualmente en secuencias para ser predichas.

Resumen

Inspirado en las características de los datos de las series temporales multidimensionales, el autor reflexiona sobre el problema de los transformadores existentes en el modelado de datos de series temporales, y propone un marco general de predicción de series temporales iTransformer.

El marco iTransformer introduce de forma innovadora una perspectiva invertida para observar series temporales, de modo que el módulo Transformer realiza sus propias funciones y completa los problemas de modelado de las dos dimensiones de los datos de series temporales, mostrando un excelente rendimiento y versatilidad.

Frente a la pregunta de si Transformer es efectivo en el campo de la predicción de series temporales, este descubrimiento del autor puede inspirar investigaciones posteriores relacionadas, hacer que Transformer vuelva a la posición principal de la predicción de series temporales y proporcionar nuevas ideas para la investigación básica de modelos en el campo de los datos de series temporales.

Recursos:

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
Kevin Lee Joins Gate Square
16k Popularidad
Gate Alpha New Listings
50k Popularidad
Crypto Market Structure Principles Bill
26k Popularidad
4BTC
29654k Popularidad
5contentstar
10717k Popularidad
6NADA
11184k Popularidad
7BOME
11561k Popularidad
8BTC
29654k Popularidad
9SMILE
9060k Popularidad
10比特币
13114k Popularidad

Anclado