Transformer King đã trở lại! Không cần sửa đổi bất kỳ mô-đun nào, dự báo thời gian dẫn đến trên bảng

Nguồn gốc: Shin Ji Yuan

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Trong những năm gần đây, Transformer đã có những bước đột phá liên tục trong xử lý ngôn ngữ tự nhiên và các tác vụ thị giác máy tính, và đã trở thành một mô hình cơ bản trong lĩnh vực học sâu.

Lấy cảm hứng từ điều này, nhiều biến thể của mô hình Transformer đã được đề xuất trong lĩnh vực chuỗi thời gian.

Tuy nhiên, ngày càng có nhiều nghiên cứu gần đây đã phát hiện ra rằng việc sử dụng mô hình dự đoán dựa trên lớp tuyến tính đơn giản có thể đạt được kết quả tốt hơn tất cả các loại máy biến áp ma thuật.

Mới đây, để trả lời các câu hỏi về hiệu quả của Transformer trong lĩnh vực dự báo chuỗi thời gian, Phòng thí nghiệm Machine Learning của Trường Phần mềm thuộc Đại học Thanh Hoa và các học giả từ Ant Group đã cùng nhau phát hành một công trình dự báo chuỗi thời gian, làm dấy lên các cuộc thảo luận sôi nổi trên Reddit và các diễn đàn khác.

Trong số đó, iTransformer do tác giả đề xuất, xem xét các đặc điểm dữ liệu của chuỗi thời gian đa chiều, không sửa đổi bất kỳ mô-đun Transformer nào, nhưng phá vỡ cấu trúc mô hình thông thường và đã đạt được vị trí dẫn đầu toàn diện trong các nhiệm vụ dự đoán chuỗi thời gian phức tạp, cố gắng giải quyết các điểm đau của dữ liệu chuỗi thời gian mô hình hóa Transformer .

Địa chỉ giấy:

Triển khai mã:

Với sự ban phước của iTransformer, Transformer đã hoàn thành một sự đảo ngược toàn diện trong nhiệm vụ dự đoán chuỗi thời gian.

Bối cảnh của vấn đề

Dữ liệu chuỗi thời gian trong thế giới thực có xu hướng đa chiều, bao gồm các thứ nguyên thay đổi ngoài thứ nguyên thời gian.

Mỗi biến có thể đại diện cho một đại lượng vật lý quan sát khác nhau, chẳng hạn như nhiều chỉ số khí tượng được sử dụng trong dự báo thời tiết (tốc độ gió, nhiệt độ, độ ẩm, áp suất không khí, v.v.) hoặc nó có thể đại diện cho các đối tượng quan sát khác nhau, chẳng hạn như phát điện hàng giờ của các thiết bị khác nhau trong nhà máy điện.

Nói chung, các biến khác nhau có ý nghĩa vật lý hoàn toàn khác nhau và ngay cả khi ngữ nghĩa giống nhau, đơn vị đo lường của chúng có thể hoàn toàn khác nhau.

Trước đây, các mô hình dự đoán dựa trên Transformer thường nhúng nhiều biến cùng một lúc vào Mã thông báo tạm thời, sử dụng mạng chuyển tiếp nguồn cấp dữ liệu để mã hóa các tính năng của từng khoảnh khắc và sử dụng mô-đun chú ý để tìm hiểu mối tương quan giữa các khoảnh khắc khác nhau.

Tuy nhiên, cách tiếp cận này có thể có các vấn đề sau:

Ý tưởng thiết kế

Không giống như mỗi từ (Token) trong ngôn ngữ tự nhiên với thông tin ngữ nghĩa độc lập mạnh mẽ, mỗi "Temporal Token" được nhìn thấy trong quan điểm của Transformer hiện tại thường thiếu ngữ nghĩa trên cùng một chuỗi dữ liệu chuỗi thời gian và phải đối mặt với các vấn đề như không căn chỉnh dấu thời gian và các trường tiếp nhận quá nhỏ.

Nói cách khác, khả năng mô hình hóa của các máy biến áp truyền thống trên chuỗi thời gian đã bị suy yếu rất nhiều.

Để kết thúc này, các tác giả đề xuất một quan điểm hoàn toàn mới về đảo ngược.

Như thể hiện trong hình bên dưới, bằng cách đảo ngược mô-đun ban đầu của Transformer, iTransformer trước tiên ánh xạ toàn bộ chuỗi của cùng một biến thành biểu diễn tính năng chiều cao (iate Token) và vectơ tính năng thu được lấy biến làm phần chính được mô tả và mô tả độc lập quá trình lịch sử mà nó phản ánh.

Sau đó, mô-đun chú ý có thể mô hình hóa Tương quan Mulitiiate một cách tự nhiên và mạng chuyển tiếp mã hóa các tính năng của các quan sát lịch sử từng lớp trong chiều thời gian và ánh xạ các tính năng đã học thành các dự đoán trong tương lai.

Ngược lại, LayerNorm, chưa được khám phá sâu về dữ liệu chuỗi thời gian trong quá khứ, cũng sẽ đóng một vai trò quan trọng trong việc loại bỏ sự khác biệt phân phối giữa các biến.

iTransformer

Cấu trúc tổng thể

Không giống như cấu trúc bộ mã hóa-giải mã phức tạp hơn được sử dụng trong các mô hình dự đoán Transformer trước đây, iTransformer chỉ chứa các bộ mã hóa, bao gồm các lớp nhúng, lớp chiếu (Projector) và các mô-đun Transformer có thể xếp chồng lên nhau (TrmBlock).

Biểu diễn tính năng của các biến mô hình hóa

Đối với một chuỗi thời gian đa chiều với độ dài thời gian và một số biến, bài viết sử dụng tất cả các biến đại diện cho cùng một thời điểm trong thời gian và toàn bộ chuỗi quan sát lịch sử đại diện cho cùng một biến.

Xem xét rằng hơn có ngữ nghĩa mạnh hơn và các đơn vị đo lường tương đối nhất quán, khác với cách nhúng các tính năng trước đây, phương pháp này sử dụng lớp nhúng để ánh xạ từng tính năng một cách độc lập để có được biểu diễn tính năng của từng biến, chứa sự thay đổi chuỗi thời gian của biến trong thời gian qua.

Biểu diễn tính năng này trước tiên sẽ tương tác thông tin giữa các biến thông qua cơ chế tự chú ý trong mỗi lớp của mô-đun Biến áp, thống nhất phân phối tính năng của các biến khác nhau bằng cách sử dụng chuẩn hóa lớp và thực hiện mã hóa tính năng được kết nối đầy đủ trong mạng chuyển tiếp. Cuối cùng, kết quả dự đoán được ánh xạ bởi một lớp chiếu.

Dựa trên quy trình trên, việc thực hiện toàn bộ mô hình rất đơn giản và quá trình tính toán có thể được thể hiện như sau:

Trong số đó, kết quả dự đoán tương ứng với từng biến, lớp nhúng và lớp chiếu được thực hiện dựa trên perceptron đa lớp (MLP).

Điều đáng chú ý là vì thứ tự giữa các điểm thời gian đã tiềm ẩn theo thứ tự sắp xếp các tế bào thần kinh, mô hình không cần phải giới thiệu nhúng vị trí trong Transformer.

Phân tích mô-đun

Sau khi đảo ngược các kích thước xử lý dữ liệu chuỗi thời gian của mô-đun Biến áp, công việc này xem xét lại trách nhiệm của từng mô-đun trong iTransformer.

**1. Chuẩn hóa lớp: ** Chuẩn hóa lớp ban đầu được đề xuất để cải thiện tính ổn định và hội tụ của đào tạo mạng sâu.

Trong Transformer trước, mô-đun chuẩn hóa nhiều biến cùng một lúc, làm cho mỗi biến không thể phân biệt được. Khi dữ liệu được thu thập không được căn chỉnh theo thời gian, hoạt động cũng giới thiệu nhiễu tương tác giữa các quy trình acausal hoặc delay.

Trong phiên bản đảo ngược (công thức như trên), chuẩn hóa lớp được áp dụng cho biểu diễn tính năng của từng biến (mã thông báo iate), do đó các kênh tính năng của tất cả các biến nằm dưới một phân phối tương đối đồng đều.

Ý tưởng chuẩn hóa này đã được chứng minh rộng rãi có hiệu quả trong việc xử lý các vấn đề không tĩnh của chuỗi thời gian, nhưng có thể được thực hiện một cách tự nhiên trong iTransformer thông qua chuẩn hóa lớp.

Ngoài ra, vì các biểu diễn tính năng của tất cả các biến được chuẩn hóa thành phân phối chuẩn, sự khác biệt gây ra bởi các phạm vi giá trị khác nhau của các biến có thể được giảm.

Thay vào đó, trong cấu trúc trước đó, Mã thông báo tạm thời của tất cả các dấu thời gian sẽ được chuẩn hóa đồng đều, dẫn đến mô hình thực sự thấy một chuỗi thời gian quá mượt mà.

**2. Mạng chuyển tiếp nguồn cấp dữ liệu: Biến áp mã hóa các vectơ từ bằng cách sử dụng mạng chuyển tiếp nguồn cấp dữ liệu.

Vectơ "từ" được hình thành trong mô hình trước đó là nhiều biến được thu thập cùng một lúc và thời gian tạo của chúng có thể không nhất quán và rất khó để "từ" phản ánh một bước thời gian để cung cấp đủ ngữ nghĩa.

Trong phiên bản đảo ngược, vectơ "từ" được hình thành bởi toàn bộ chuỗi của cùng một biến, dựa trên định lý biểu diễn phổ quát của perceptron đa lớp, có dung lượng mô hình đủ lớn để trích xuất các đặc điểm thời gian được chia sẻ trong các quan sát lịch sử và dự đoán trong tương lai, và sử dụng phép ngoại suy tính năng làm kết quả dự đoán.

Một cơ sở khác để sử dụng các mạng chuyển tiếp để mô hình hóa chiều thời gian đến từ nghiên cứu gần đây cho thấy các lớp tuyến tính rất tốt trong việc học các đặc điểm thời gian mà bất kỳ chuỗi thời gian nào sở hữu.

Các tác giả đề xuất một lời giải thích hợp lý: các tế bào thần kinh trong lớp tuyến tính có thể học cách trích xuất các tính chất nội tại của chuỗi thời gian tùy ý, chẳng hạn như biên độ, tính tuần hoàn và thậm chí cả phổ tần số (biến đổi Fourier về cơ bản là một bản đồ được kết nối đầy đủ trên chuỗi ban đầu).

Do đó, so với thực tiễn trước đây của Transformer sử dụng cơ chế chú ý để mô hình hóa các phụ thuộc chuỗi thời gian, việc sử dụng các mạng chuyển tiếp có nhiều khả năng hoàn thành khái quát hóa trên các chuỗi không nhìn thấy.

**3. Tự chú ý: Mô-đun tự chú ý được sử dụng trong mô hình này để mô hình hóa mối tương quan của các biến khác nhau, điều này cực kỳ quan trọng trong các kịch bản dự đoán phức tạp được thúc đẩy bởi kiến thức vật lý, chẳng hạn như dự báo thời tiết.

Các tác giả nhận thấy rằng mỗi vị trí của Bản đồ chú ý thỏa mãn công thức sau:

Tương ứng với các vectơ Query và Key của hai biến bất kỳ, tác giả tin rằng toàn bộ bản đồ chú ý có thể tiết lộ mối tương quan của các biến ở một mức độ nhất định và trong các hoạt động trọng số tiếp theo dựa trên bản đồ chú ý, các biến tương quan cao sẽ tăng trọng lượng lớn hơn trong tương tác với vectơ Giá trị của chúng, vì vậy thiết kế này tự nhiên hơn và dễ hiểu hơn cho mô hình dữ liệu chuỗi thời gian đa chiều.

Tóm lại, trong iTransformer, chuẩn hóa lớp, mạng chuyển tiếp nguồn cấp dữ liệu và mô-đun tự chú ý xem xét các đặc điểm của chính dữ liệu chuỗi thời gian đa chiều và cả ba hợp tác một cách có hệ thống với nhau để thích ứng với nhu cầu mô hình hóa của các chiều khác nhau và phát huy tác dụng của 1 + 1 + 1 > 3.

Phân tích thực nghiệm

Các tác giả đã tiến hành các thí nghiệm mở rộng trên sáu điểm chuẩn dự báo chuỗi thời gian đa chiều và đưa ra dự đoán trong dữ liệu (Thị trường) của kịch bản nhiệm vụ dự đoán tải dịch vụ trực tuyến của nền tảng giao dịch Alipay.

Phần thử nghiệm so sánh 10 mô hình dự đoán khác nhau, bao gồm các mô hình máy biến áp đại diện miền: PatchTST (2023), Crossformer (2023), FEDformer (2022), Stationary (2022), Autoformer (2021), Informer (2021); Các mô hình dự đoán tuyến tính: TiDE (2023), DLinear (2023); Các mô hình TCN: TimesNet (2023), SCINet (2022).

Ngoài ra, bài báo phân tích những lợi ích do đảo ngược mô-đun mang lại cho nhiều biến thể Biến áp, bao gồm cải thiện hiệu ứng chung, khái quát hóa các biến chưa biết và sử dụng đầy đủ hơn các quan sát lịch sử.

**Dự báo chuỗi thời gian **

Như thể hiện trong biểu đồ radar mở đầu, iTransformer đã đạt được SOTA trong tất cả sáu điểm chuẩn thử nghiệm và đạt được kết quả tối ưu trong 28/30 kịch bản dữ liệu thị trường (xem phụ lục của bài báo để biết chi tiết).

Trong kịch bản đầy thách thức về dự báo dài hạn và dự báo thời gian đa chiều, iTransformer đã vượt qua toàn diện các mô hình dự báo của những năm gần đây.

**Điểm chung của khung iTransformer **

Trong khi đạt được kết quả tốt nhất, tác giả đã thực hiện các thí nghiệm so sánh trước và sau khi đảo ngược trên các mô hình biến thể Transformer như Reformer, Informer, Flowformer và Flashformer, chứng minh rằng đảo ngược là một khung cấu trúc phù hợp hơn với các đặc điểm của dữ liệu chuỗi thời gian.

1. Cải thiện dự báo

Bằng cách giới thiệu khung đề xuất, các mô hình này đã đạt được những cải tiến đáng kể về hiệu ứng dự đoán, chứng minh tính linh hoạt của các ý tưởng cốt lõi của iTransformer và tính khả thi của việc hưởng lợi từ tiến trình nghiên cứu sự chú ý hiệu quả.

2. Tổng quát hóa thành các biến chưa biết

Bằng cách đảo ngược, mô hình có thể nhập một số biến khác với đào tạo khi suy luận và bài báo so sánh nó với chiến lược khái quát hóa, Độc lập kênh và kết quả cho thấy khung vẫn có thể giảm thiểu lỗi khái quát hóa khi chỉ sử dụng 20% biến.

3. Sử dụng các quan sát lịch sử dài hơn

Trước đây, hiệu ứng dự đoán của mô hình Biến áp không nhất thiết phải cải thiện theo độ dài quan sát lịch sử, nhưng các tác giả nhận thấy rằng sau khi sử dụng khung này, mô hình cho thấy xu hướng giảm lỗi dự đoán đáng kinh ngạc trong trường hợp tăng quan sát lịch sử, xác minh tính hợp lý của đảo ngược mô-đun ở một mức độ nhất định.

Phân tích mô hình

1. Thử nghiệm cắt bỏ mô hình

Các tác giả đã tiến hành các thí nghiệm cắt bỏ để xác minh tính hợp lý của việc sắp xếp mô-đun iTransformer .

Kết quả cho thấy phương pháp mô hình hóa sử dụng sự tự chú ý trong chiều thay đổi và lớp tuyến tính trong chiều thời gian đạt được hiệu quả tốt nhất trên hầu hết các bộ dữ liệu.

2. Phân tích biểu diễn tính năng

Để xác minh ý tưởng rằng các mạng feedforward có thể trích xuất tốt hơn các tính năng trình tự, các tác giả thực hiện phân tích biểu diễn tính năng dựa trên sự tương đồng CKA (Centered Kernel Alignment). Sự giống nhau của CKA càng thấp, sự khác biệt về tính năng giữa các lớp dưới cùng và trên cùng của mô hình càng lớn.

Điều đáng chú ý là các nghiên cứu trước đây đã chỉ ra rằng dự báo chuỗi thời gian, như một nhiệm vụ học tập tính năng chi tiết, có xu hướng thích sự tương đồng CKA cao hơn.

Các tác giả tính toán CKA cấp thấp và cấp cao nhất của mô hình trước và sau khi đảo ngược, và thu được các kết quả sau, xác nhận rằng iTransformer học các tính năng trình tự tốt hơn, do đó đạt được hiệu quả dự đoán tốt hơn.

**3. Phân tích tương quan biến **

Như thể hiện trong hình trên, cơ chế chú ý tác động lên chiều thay đổi cho thấy khả năng diễn giải cao hơn trong bản đồ chú ý đã học. Bằng cách trực quan hóa một mẫu dữ liệu Năng lượng mặt trời, các quan sát sau đây được thực hiện:

  • Trong mô-đun chú ý nông, biểu đồ chú ý đã học tương tự như mối tương quan biến đổi của các chuỗi lịch sử.
  • Khi chú ý sâu vào mô-đun, bản đồ chú ý đã học tương tự như mối tương quan biến đổi của chuỗi được dự đoán.

Điều này cho thấy mô-đun chú ý tìm hiểu các mối tương quan biến dễ hiểu hơn, mã hóa các đặc điểm thời gian của các quan sát lịch sử trong mạng chuyển tiếp và có thể dần dần giải mã chúng thành các chuỗi để dự đoán.

Tóm tắt

Lấy cảm hứng từ các đặc điểm dữ liệu của chuỗi thời gian đa chiều, tác giả phản ánh về vấn đề của các máy biến áp hiện có trong việc mô hình hóa dữ liệu chuỗi thời gian và đề xuất khung dự báo chuỗi thời gian chung iTransformer.

Khung iTransformer giới thiệu một cách sáng tạo góc nhìn đảo ngược để quan sát chuỗi thời gian, để mô-đun Biến áp thực hiện nhiệm vụ của riêng mình và hoàn thành các vấn đề mô hình hóa của hai chiều dữ liệu chuỗi thời gian, cho thấy hiệu suất và tính linh hoạt tuyệt vời.

Trước câu hỏi liệu Transformer có hiệu quả trong lĩnh vực dự báo chuỗi thời gian hay không, khám phá này của tác giả có thể truyền cảm hứng cho các nghiên cứu liên quan tiếp theo, khiến Transformer trở lại vị trí chủ đạo của dự báo chuỗi thời gian và cung cấp những ý tưởng mới cho nghiên cứu mô hình cơ bản trong lĩnh vực dữ liệu chuỗi thời gian.

Tài nguyên:

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)