Король-трансформер возвращается! Не модифицируя какие-либо модули, прогнозирование времени ведет по всем направлениям

Первоисточник: Shin Ji Yuan

Источник изображения: Generated by Unbounded AI

В последние годы Transformer совершает непрерывные прорывы в задачах обработки естественного языка и компьютерного зрения, а также стал базовой моделью в области глубокого обучения.

Вдохновленные этим, были предложены многочисленные варианты модели Transformer в области временных рядов.

Тем не менее, растущее число недавних исследований показало, что использование простой линейной прогностической модели на основе слоев может достичь лучших результатов, чем все виды волшебных трансформаторов.

Недавно, отвечая на вопросы об эффективности Transformer в области прогнозирования временных рядов, Лаборатория машинного обучения Школы программного обеспечения Университета Цинхуа и ученые из Ant Group совместно выпустили работу по прогнозированию временных рядов, которая вызвала бурные дискуссии на Reddit и других форумах.

Среди них предложенный автором iTransformer, учитывающий характеристики данных многомерных временных рядов, не модифицирует ни один модуль Transformer, но ломает традиционную структуру модели, и достиг всестороннего лидерства в сложных задачах прогнозирования временных рядов, пытаясь решить болевые точки данных временных рядов моделирования Transformer.

Адрес доклада:

Реализация кода:

С благословения iTransformer компания Transformer завершила комплексную инверсию в задаче прогнозирования временных рядов.

Предыстория проблемы

Реальные данные временных рядов, как правило, многомерны, включая переменные измерения в дополнение к измерению времени.

Каждая переменная может представлять различную наблюдаемую физическую величину, например, несколько метеорологических индикаторов, используемых при прогнозировании погоды (скорость ветра, температура, влажность, атмосферное давление и т. д.), или она может представлять различные объекты наблюдения, такие как почасовая выработка электроэнергии различным оборудованием на электростанции.

В целом, разные переменные имеют совершенно разное физическое значение, и даже если семантика одинакова, их единицы измерения могут быть совершенно разными.

В прошлом предиктивные модели на основе Transformer обычно встраивали несколько переменных в один и тот же момент в Temporal Token, использовали сеть прямой связи для кодирования характеристик каждого момента и использовали модуль внимания для изучения корреляции между различными моментами.

Однако такой подход может иметь следующие проблемы:

Дизайнерские идеи

В отличие от каждого слова (Token) в естественном языке с сильной независимой семантической информацией, каждый «Temporal Token», рассматриваемый с точки зрения существующего Transformer, часто не имеет семантики на одной и той же последовательности данных временных рядов и сталкивается с такими проблемами, как несовпадение временных меток и слишком маленькие рецептивные поля.

Другими словами, возможности моделирования традиционных трансформаторов на временных рядах были значительно ослаблены.

С этой целью авторы предлагают совершенно новый взгляд на инвертированный.

Как показано на рисунке ниже, инвертируя исходный модуль Transformer, iTransformer сначала отображает всю последовательность одной и той же переменной в многомерное представление признака (iate Token), а полученный вектор признаков принимает переменную в качестве основного описания и независимо изображает исторический процесс, который она отражает.

После этого модуль внимания может естественным образом моделировать множественную корреляцию, а сеть прямой связи кодирует признаки исторических наблюдений слой за слоем во временном измерении и сопоставляет изученные признаки с будущими прогнозами.

В отличие от этого, LayerNorm, который в прошлом не был глубоко изучен на данных временных рядов, также будет играть решающую роль в устранении различий в распределении между переменными.

iTransformer

Общая структура

В отличие от более сложной структуры энкодера-декодера, используемой в предыдущих моделях прогнозирования Transformer, iTransformer содержит только энкодеры, включая слои встраивания, проекционные слои (Projector) и стекируемые модули Transformer (TrmBlock).

Представление признаков переменных моделирования

Для многомерного временного ряда с длиной времени и числом переменных в статье используются все переменные, представляющие один и тот же момент времени, и целая историческая последовательность наблюдений, представляющая одну и ту же переменную.

Учитывая, что он имеет более сильную семантику и относительно согласованные единицы измерения, отличные от предыдущего способа встраивания признаков, этот метод использует слой вложения для сопоставления каждого признака независимо для получения представления признака каждой переменной, которое содержит изменение временного ряда переменной за прошедшее время.

Это представление признаков сначала будет взаимодействовать с информацией между переменными через механизм самовнимания в каждом слое модуля Transformer, унифицировать распределение признаков различных переменных с помощью нормализации слоев и выполнять полносвязное кодирование признаков в сети прямого распространения. Наконец, результат интерполяции отображается слоем проекции.

Исходя из вышеописанного процесса, реализация всей модели очень проста, а процесс расчета можно выразить следующим образом:

Среди них результаты прогнозирования, соответствующие каждой переменной, слою вложения и слою проекции, реализованы на основе многослойного персептрона (MLP).

Стоит отметить, что, поскольку порядок между временными точками уже неявно присутствует в порядке расположения нейронов, модели не нужно вводить встраивание позиций в Transformer.

Модульный анализ

После изменения размеров обработки данных временных рядов модулем Transformer в этой работе мы возвращаемся к обязанностям каждого модуля в iTransformer.

**1. Нормализация уровней: ** Нормализация уровней была первоначально предложена для повышения стабильности и конвергенции обучения глубокой сети.

В предыдущей версии Transformer модуль нормализовал несколько переменных одновременно, делая каждую переменную неразличимой. Если собранные данные не выровнены по времени, операция также вносит помехи взаимодействия между акаузальными или запаздывающими процессами.

В инвертированном варианте (формула приведена выше) нормализация слоя применяется к представлению признаков каждой переменной (токен iate), так что каналы признаков всех переменных находятся при относительно равномерном распределении.

Эта идея нормализации доказала свою эффективность при решении нестационарных задач временных рядов, но может быть естественным образом реализована в iTransformer с помощью послойной нормализации.

Кроме того, поскольку представления признаков всех переменных нормализованы к нормальному распределению, различия, вызванные различными диапазонами значений переменных, могут быть уменьшены.

Вместо этого в предыдущей структуре временная лексема всех временных меток была бы равномерно нормализована, в результате чего модель фактически видела бы слишком гладкий временной ряд.

**2. Сети прямого распространения: Трансформатор кодирует векторы слов с помощью сетей прямого распространения.

Вектор «слово», сформированный в предыдущей модели, представлял собой несколько переменных, собранных одновременно, и время их генерации может быть непостоянным, а «словам», отражающим временной шаг, трудно обеспечить достаточную семантику.

В инвертированном варианте вектор «слово» формируется всей последовательностью одной и той же переменной, основанной на теореме универсального представления многослойного персептрона, который обладает достаточно большой модельной емкостью для извлечения временных признаков, общих для исторических наблюдений и будущих предсказаний, и использует экстраполяцию признаков в качестве результатов предсказания.

Еще одна основа для использования сетей прямого распространения для моделирования временного измерения исходит из недавних исследований, которые показали, что линейные слои хорошо изучают временные характеристики, которыми обладает любой временной ряд.

Авторы предлагают правдоподобное объяснение: нейроны в линейном слое могут научиться извлекать внутренние свойства произвольных временных рядов, такие как амплитуда, периодичность и даже частотные спектры (преобразование Фурье, по сути, является полносвязным отображением над исходной последовательностью).

Таким образом, по сравнению с предыдущей практикой использования механизма внимания для моделирования зависимостей временных рядов, использование сетей прямого распространения с большей вероятностью приведет к завершению обобщения на невидимые последовательности.

**3. Самовнимание: Модуль «Самовнимание» используется в этой модели для моделирования корреляции различных переменных, что чрезвычайно важно в сложных сценариях прогнозирования, основанных на физических знаниях, таких как прогнозирование погоды.

Авторы обнаружили, что каждая позиция Карты Внимания удовлетворяет следующей формуле:

В соответствии с векторами Query и Key любых двух переменных, автор считает, что вся карта внимания может в определенной степени выявить корреляцию переменных, а в последующих весовых операциях на основе карт внимания высококоррелированные переменные будут приобретать больший вес во взаимодействии со своими векторами Value, поэтому такая конструкция более естественна и интерпретируема для моделирования данных многомерных временных рядов.

Таким образом, в iTransformer нормализация слоев, сеть прямой связи и модуль самовнимания учитывают характеристики самих многомерных данных временных рядов, и эти три систематически взаимодействуют друг с другом, чтобы адаптироваться к потребностям моделирования различных измерений и воспроизводить эффект 1+1+1 > 3.

Экспериментальный анализ

Авторы провели обширные эксперименты на шести многомерных бенчмарках прогнозирования временных рядов, а также сделали прогнозы в данных (Маркет) сценария задачи прогнозирования нагрузки онлайн-сервиса торговой платформы Alipay.

В экспериментальной части сравниваются 10 различных прогностических моделей, в том числе доменно-репрезентативные модели трансформаторов: PatchTST (2023), Crossformer (2023), FEDformer (2022), Stationary (2022), Autoformer (2021), Informer (2021); Модели линейного прогнозирования: TiDE (2023), DLinear (2023); Модели TCN: TimesNet (2023), SCINet (2022).

Кроме того, в статье анализируются выгоды, приносимые инверсией модулей для многих вариантов Transformer, включая улучшение общего эффекта, обобщение на неизвестные переменные и более полное использование исторических наблюдений.

Прогнозирование временных рядов

Как показано на первой лепестковой диаграмме, iTransformer достиг SOTA во всех шести тестовых бенчмарках и достиг оптимальных результатов в сценариях 28/30 рыночных данных (подробнее см. приложение к документу).

В сложном сценарии долгосрочного прогнозирования и многомерного прогнозирования времени iTransformer полностью превзошел модели прогнозирования последних лет.

Общность фреймворка iTransformer

Достигнув наилучших результатов, автор провел сравнительные эксперименты до и после инверсии на моделях вариантов Transformer, таких как Reformer, Informer, Flowformer и Flashformer, которые доказали, что инверсия является структурным каркасом, который в большей степени соответствует характеристикам данных временных рядов.

1. Улучшение прогнозирования

С введением предложенной структуры эти модели добились значительных улучшений в эффектах прогнозирования, доказав универсальность основных идей iTransformer и возможность извлечь выгоду из прогресса в исследовании эффективного внимания.

2. Обобщение на неизвестные переменные

При инвертировании модель может вводить другое количество переменных, чем обучение при выводе, и в статье сравнивается это со стратегией обобщения, Channel Independent, и результаты показывают, что фреймворк по-прежнему может минимизировать ошибки обобщения при использовании только 20% переменных.

3. Используйте более длительные исторические наблюдения

В прошлом прогностический эффект модели Трансформера не обязательно улучшался с увеличением продолжительности исторического наблюдения, но авторы обнаружили, что после использования этого фреймворка модель показала удивительную тенденцию к уменьшению ошибок предсказания в случае увеличения исторических наблюдений, что в определенной степени подтвердило рациональность инверсии модулей.

Анализ модели

1. Модельный эксперимент по абляции

Авторами были проведены эксперименты по абляции для проверки рациональности компоновки модуля iTransformer.

Результаты показывают, что метод моделирования с использованием самовнимания в переменной размерности и линейного слоя во временном измерении достигает наилучшего эффекта на большинстве наборов данных.

2. Анализ представления признаков

Для того, чтобы проверить идею о том, что сети прямого распространения могут лучше извлекать признаки последовательностей, авторы проводят анализ представления признаков, основанный на подобии CKA (Centered Kernel Alignment). Чем меньше сходство CKA, тем больше разница в признаках между нижним и верхним слоями модели.

Стоит отметить, что предыдущие исследования показали, что прогнозирование временных рядов, как задача детального изучения признаков, имеет тенденцию отдавать предпочтение более высокому сходству CKA.

Авторы вычисляют низкоуровневый и верхний уровни CKA модели до и после инверсии и получают следующие результаты, которые подтверждают, что iTransformer лучше обучается признакам последовательности, тем самым достигая лучших эффектов предсказания.

3. Корреляционный анализ переменных

Как показано на рисунке выше, механизм внимания, действующий на переменную размерность, показывает большую интерпретируемость в изученной карте внимания. Визуализируя выборку набора данных Solar-Energy, можно сделать следующие наблюдения:

  • В модуле поверхностного внимания выученный график внимания больше похож на переменную корреляцию исторических последовательностей.
  • В модуле глубокого внимания изученная карта внимания больше похожа на переменную корреляцию прогнозируемой последовательности.

Это показывает, что модуль внимания изучает более интерпретируемые корреляции переменных, кодирует временные особенности исторических наблюдений в сети прямой связи и может постепенно декодировать их в последовательности для прогнозирования.

Резюме

Опираясь на характеристики данных многомерных временных рядов, автор размышляет над проблемой существующих трансформаторов при моделировании данных временных рядов и предлагает общую структуру прогнозирования временных рядов iTransformer.

Фреймворк iTransformer инновационно вводит инвертированную перспективу для наблюдения за временными рядами, так что модуль Transformer выполняет свои собственные обязанности и решает задачи моделирования двух измерений данных временных рядов, демонстрируя отличную производительность и универсальность.

Перед лицом вопроса о том, эффективен ли Transformer в области прогнозирования временных рядов, это открытие автора может вдохновить последующие смежные исследования, вернуть Transformer на господствующую позицию прогнозирования временных рядов и предоставить новые идеи для фундаментальных модельных исследований в области данных временных рядов.

Ресурсы:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить