Musk chia sẻ bài báo Kimi gây tranh luận lớn ở Silicon Valley, chiến trường tiếp theo của Attention là gì?

Ngày 16 tháng 3 năm 2026, nhóm Kimi đã đăng tải một bài báo có tên Attention Residuals lên arXiv, rồi mọi chuyện nhanh chóng vượt khỏi tầm kiểm soát. Elon Musk đã chia sẻ lại, Karpathy bình luận một câu “Chúng ta vẫn chưa thực sự coi trọng tiêu đề của Attention is All You Need”, cựu đồng sáng lập OpenAI Jerry Tworek đã trực tiếp đưa ra bốn chữ: deep learning 2.0. Một bài báo về kiến trúc đến từ nhóm Trung Quốc có thể gây ra cuộc thảo luận cấp độ này ở Silicon Valley, lần gần nhất có lẽ là DeepSeek-V3.

Nhưng dù náo nhiệt đến đâu, phần lớn các cuộc thảo luận vẫn chỉ dừng lại ở mức “Kimi làm ra thứ mới, các bậc đàn anh rất phấn khích”. Điều bị bỏ qua là, cùng ngày đó, nhóm Seed của ByteDance và Đại học Trung Hoa Hồ Bắc đã công bố một bài báo khác mang tên Mixture-of-Depths Attention (MoDA), cũng giải quyết chính xác vấn đề đó, nhưng theo một hướng hoàn toàn khác. Trong cùng một tuần, bài báo thứ ba của nhóm tại Đại học Nam Kinh, Dilxat Muhtar, cùng các tác giả như Shiwei Liu của MPI, mang tên “When Does Sparsity Mitigate the Curse of Depth in LLMs” đã cung cấp một báo cáo bệnh lý chính xác nhất về mặt lý thuyết.

Ba bài báo xuất hiện dồn dập, đều nhắm vào cùng một mục tiêu. Điều này không phải là ngẫu nhiên. Một vấn đề mang tính cấu trúc đã bị bỏ qua suốt gần mười năm, cuối cùng đã đến điểm giới hạn buộc phải giải quyết.

Vấn đề không nằm ở chiều thứ tự của attention. Trong vài năm qua, attention đã tiến hóa qua nhiều thế hệ, từ multi-head attention đến grouped query attention, rồi đến MLA của DeepSeek, cùng các biến thể thưa thớt khác, mỗi thế hệ đều tối ưu cách các token quan sát lẫn nhau. Cuộc chạy đua vũ trang này rất hấp dẫn, nhưng nó che giấu một sự thật — cách truyền tải thông tin giữa các lớp, từ khi bài báo Transformer ra đời năm 2017 cho đến nay, câu trả lời luôn luôn giống nhau. Residual connection, h = h + f(h), là một phép cộng không có tham số học.

Tất cả các đầu ra của các lớp trước đều được cộng đều nhau. Không có lựa chọn, không có quên lãng, không có học hỏi. Mỗi lớp đóng góp đều được đưa vào dòng residual một cách bình đẳng, bất kể đó là đặc trưng quan trọng hay là nhiễu.

Residual connection là “giải pháp tạm thời” thành công nhất trong lịch sử deep learning.

Giải pháp tạm thời thành công nhất

Residual connection được Kaiming He đề xuất trong ResNet năm 2015. Ý tưởng cực kỳ đơn giản: mạng sâu đến hơn hai mươi lớp thì không thể huấn luyện nổi, gradient biến mất khiến các tham số lớp sâu gần như không cập nhật, nên thêm một “đường cao tốc” cho mỗi lớp, cho phép đầu vào bỏ qua lớp đó, kết nối trực tiếp tới đầu ra. Dù lớp đó có học được gì hay không, ít nhất thông tin và gradient vẫn có thể đi qua con đường tắt này. Hiệu quả rõ rệt ngay lập tức, ResNet đã giúp mạng từ hơn hai mươi lớp lên hơn một trăm lớp. Hai năm sau, Transformer ra đời, residual connection được giữ nguyên không đổi. Từ đó đến nay, thiết kế này gần như chưa từng thay đổi.

Không phải là không ai thử. ReZero, FixUp, Highway Network đều có các biến thể, cố gắng làm cho trọng số residual có thể học được. Nhưng không có biến thể nào trở thành lựa chọn chính trong các kiến trúc mô hình lớn, vì residual quá hữu dụng. Đơn giản, ổn định, gần như không tăng thêm tính toán, trong quy mô mô hình thời đó, tác dụng phụ chưa lộ rõ.

44% các lớp đang rỗng

Tác dụng phụ là gì? Đầu năm 2025, nhóm của Shiwei Liu từ Đại học Tây Hồ, Emory và MPI đã công bố bài “The Curse of Depth”, rồi đến tháng 3 năm nay, bài “When Does Sparsity Mitigate the Curse of Depth in LLMs” của nhóm tại Đại học Nam Kinh đã cung cấp một chẩn đoán định lượng chính xác hơn. Trong kiến trúc của các mô hình lớn phổ biến hiện nay, các biến đổi sâu dần dần tiến gần đến phép ánh xạ là hằng số. Đầu vào như thế nào thì đầu ra như thế ấy, lớp này gần như không có tác dụng.

Các số liệu rất khó xem. Các nhà nghiên cứu dùng “điểm số hữu dụng” để đo xem mỗi lớp có đang thực hiện biến đổi có ý nghĩa hay không. Với mô hình 12 lớp, tất cả các lớp đều hoạt động. Với 16 lớp, có 3 lớp bỏ đi. Với 24 lớp, 9 lớp bỏ đi. Với 32 lớp, 14 lớp bỏ đi, tức 44% các lớp gần như không học được gì. Số tham số từ 9 tỷ tăng lên 23 tỷ, tốn kém nhiều hơn 156%, nhưng số lớp hiệu quả chỉ tăng từ 12 lên 18.

Chẩn đoán định lượng về lời nguyền chiều sâu — hiệu quả của số lớp thực tế giảm dần theo quy mô mô hình

Nguyên nhân liên quan trực tiếp đến cách hoạt động của residual connection. Mỗi lớp đầu ra đều được cộng vào một “đường chính” qua residual. Khi số lớp tăng lên, tín hiệu tích tụ trên đường chính ngày càng lớn (có thể hiểu là “âm lượng nền” liên tục tăng), nhưng mỗi lớp sinh ra tín hiệu mới có giới hạn. Đến lớp sâu, tín hiệu mới bị chìm trong tiếng ồn nền, đầu vào và đầu ra gần như giống hệt nhau, lớp này gần như vô dụng.

Residual connection đã giải quyết vấn đề “để gradient truyền qua”, nhưng lại tạo ra vấn đề “để lớp sâu có ý nghĩa”.

Trong kỷ nguyên mô hình lớn, cái giá đó là rất đắt. Một lớp phải thực hiện hàng chục tỷ phép tính float. Một mô hình 128 lớp, nếu có 44% lớp rỗng, thì gần sáu mươi lớp đang tiêu tốn năng lượng vô ích. Cộng đồng đã dành nhiều năm tối ưu hiệu quả suy luận — qua lượng hóa, distillation, pruning, attention thưa, nén cache KV — tất cả đều nhằm tối ưu những “tính toán hữu ích”.

Lỗ hổng lớn nhất về hiệu quả không nằm ở độ phức tạp bình phương của attention, mà ở một phép cộng không có tham số học đã tồn tại từ năm 2015.

Thêm chiều sâu cho attention

Nhóm Seed của ByteDance đã chọn một hướng đi khác. Thay vì động đến residual connection, họ lại thêm một chiều thứ hai cho chính cơ chế attention.

Attention của Transformer tiêu chuẩn chỉ hoạt động trên chiều thứ tự, nghĩa là, mỗi token ở lớp hiện tại sẽ xem các token khác cùng lớp qua các vector KV. Thay đổi của MoDA rất trực quan: đưa các KV của các lớp trước vào tập các ứng viên của attention. Khi một token tính attention ở lớp L, nó không chỉ xem các token cùng lớp, mà còn có thể trực tiếp xem các KV từ lớp 1 đến lớp L-1. Cả chiều thứ tự và chiều sâu đều được chuẩn hóa chung trong một Softmax.

Ý tưởng này không khó hiểu, điều khó là làm sao để thực hiện mà không làm chậm tốc độ.

Cơ chế attention hai chiều của MoDA — chuẩn hóa chung trong một Softmax trên cả chiều thứ tự và chiều sâu

Việc đưa toàn bộ KV của các lớp lịch sử vào attention sẽ gây nổ tính toán. Một mô hình 32 lớp, lớp thứ 32 phải xem tất cả KV của 31 lớp trước, độ dài chuỗi hiệu quả sẽ tăng gấp 32 lần. Trọng tâm kỹ thuật của MoDA là một chiến lược “tổ hợp phân nhóm” — chỉ chọn một phần KV của các lớp lịch sử, rồi sắp xếp lại theo nhóm để đưa vào bộ nhớ liên tục, giúp GPU thực thi ma trận nhân hiệu quả.

Cụ thể, MoDA giới thiệu cơ chế “dòng chảy sâu” (deep flow). Thay vì mỗi lớp đều xem tất cả các lớp trước, nó dùng một bộ định tuyến có thể học để chọn ra các lớp liên quan nhất. Cách này tương tự ý tưởng của Mixture-of-Experts — không kích hoạt tất cả các “chuyên gia”, mà động chọn những chuyên gia cần thiết. Khác biệt là, “chuyên gia” ở đây là các lớp lịch sử có độ sâu khác nhau.

Trong chuỗi dài 64K, hiệu suất của MoDA đạt tới 97.3% của FlashAttention-2. Thêm toàn bộ cơ chế deep attention, tốc độ chỉ chậm hơn chưa đến 3%.

Chiến lược tổ hợp phân nhóm — chuyển KV của các lớp lịch sử rải rác về bộ nhớ liên tục

Trên mô hình 1.5 tỷ tham số (theo công thức huấn luyện của OLMo2), MoDA trung bình cải thiện 2.11% hiệu suất trên 10 nhiệm vụ phụ, với chi phí tính toán thêm chỉ 3.7%. Ban đầu có vẻ không lớn, nhưng đây là bước cải tiến về kiến trúc, không dựa vào nhiều dữ liệu hơn hay huấn luyện lâu hơn. Hơn nữa, hiệu quả của MoDA càng lớn khi quy mô mô hình tăng lên — trong các mô hình lớn hơn, lời nguyền chiều sâu càng rõ, tác dụng sửa chữa của MoDA càng mạnh.

So sánh hiệu suất của MoDA trên 10 nhiệm vụ phụ

Điều thú vị hơn nữa là phản ứng của MoDA với Post-Norm. Các mô hình lớn phổ biến gần như đều dùng Pre-Norm (chuẩn hóa trước, attention sau), vì Post-Norm (attention trước, chuẩn hóa sau) dù lý thuyết là tốt hơn, nhưng huấn luyện không ổn định. Cơ chế deep KV của MoDA lại vô tình cung cấp thêm kênh gradient cho Post-Norm, khiến vấn đề không ổn định ban đầu không còn là vấn đề chết người nữa.

Hợp tác giữa MoDA và Post-Norm mở ra khả năng mới — những thỏa hiệp để huấn luyện ổn định trước đây (dùng Pre-Norm) có thể được xem xét lại.

Pre-Norm vs Post-Norm sau khi thêm deep KV — chênh lệch về mất mát xác thực

Không mở đường mới, chỉ sửa đường cũ

MoDA không động đến residual connection, mà chọn mở một con đường khác ngoài residual. Cùng ngày, nhóm Kimi đề xuất AttnRes (Attention Residuals), đi theo hướng trực tiếp hơn, trực tiếp tác động vào residual connection.

Residual connection tiêu chuẩn làm rất đơn giản: cộng đều các đầu ra của tất cả các lớp trước, rồi đưa vào đường chính. Không có lựa chọn, không quên lãng. AttnRes thay thế phép cộng đều cố định này bằng một phép attention, mỗi lớp dùng trạng thái của chính nó làm truy vấn, các đầu ra của các lớp trước làm các ứng viên, rồi dùng attention để quyết định xem các đặc trưng của lớp trước có hữu ích cho lớp hiện tại hay không, và trọng số của chúng là bao nhiêu.

Residual connection từ một công thức cố định biến thành một đường dẫn động có thể học được.

Ý tưởng cốt lõi của AttnRes — dùng attention thay thế phép cộng đều residual

Nhưng đổi lại, mỗi lớp phải chạy thêm một lần tính attention sâu, chi phí không nhỏ. Nhóm Kimi dùng chiến lược chia khối (Block AttnRes) để kiểm soát chi phí, chia mạng thành nhiều khối, trong mỗi khối thực hiện attention đầy đủ, còn giữa các khối chỉ quan tâm đến đại diện tổng hợp của khối đó.

AttnRes đã được tích hợp vào Kimi Linear (tổng tham số 480 tỷ / 30 tỷ tham số hoạt động), đã thực hiện huấn luyện trước trên 1.4 nghìn tỷ token, và hiệu quả đã được xác nhận trên các quy mô mô hình khác nhau. Bài báo này đã được phổ biến rộng rãi, các chi tiết kỹ thuật không cần lặp lại. Điều đáng để đề cập ở đây là so sánh với hướng đi của MoDA.

Đường cong huấn luyện và các thử nghiệm loại bỏ của AttnRes

Hai hướng đi này đều xuất phát từ cùng một nguyên nhân, đó là, thông tin nông của các lớp nông bị cập nhật residual liên tục làm loãng đi. Nhưng điểm cắt khác nhau. MoDA không chạm vào residual, mà thêm chiều sâu cho attention, để lớp sâu có thể bỏ qua dòng residual và lấy trực tiếp đặc trưng ban đầu của lớp nông. AttnRes trực tiếp sửa residual, thay phép cộng đều bằng attention có trọng số. Một là “mở đường mới”, một là “tân trang đường cũ”.

Hai bài báo cùng ngày xuất hiện, hướng đi khác, mục tiêu giống nhau. Điều này không phải là ngẫu nhiên. Vấn đề chiều sâu của attention đã trở thành nhận thức chung của cộng đồng nghiên cứu, chỉ khác nhau về cách tiếp cận.

Hiệu quả của AttnRes trên các quy mô mô hình khác nhau

Những khung scaffolding chưa bị tháo dỡ

Quay lại câu hỏi ban đầu, tại sao đến năm 2026, vấn đề rỗng lớp sâu mới được chú ý đúng mức?

Bởi residual quá hữu dụng. Nó giải quyết vấn đề cấp bách nhất thời đó (gradient biến mất), chi phí kiểm soát được (lỗi sâu không rõ trên mô hình nhỏ), các phương án thay thế chưa đủ trưởng thành (ReZero, Highway Network đều chưa qua thử nghiệm quy mô lớn). Không ai muốn thay đổi. Nó không phải là lựa chọn thiết kế có chủ ý, mà là giải pháp tạm thời bị quên lãng. Cái khung scaffolding ban đầu xây dựng, sau khi xây xong, quên tháo bỏ, lâu ngày mọi người cứ nghĩ đó là tường chịu lực.

Hiệu ứng loãng tín hiệu của residual — càng sâu, tín hiệu mới càng khó nghe

Nhưng điều thực sự khiến vấn đề này khó phát hiện hơn không phải residual, mà chính là cơ chế attention đã vận hành trong một chiều suốt tám năm qua. Trong tám năm đó, tất cả các tiến bộ của attention — multi-head, grouped query, sparse, linear — đều tập trung vào chiều thứ tự. Cách các token quan sát lẫn nhau đã được tối ưu hóa vô số lần. Nhưng cách các lớp quan sát lẫn nhau, thì gần như chưa từng ai hỏi. Chiều sâu vẫn là vùng tối của attention.

MoDA và AttnRes đã mở ra vùng tối này theo hai hướng khác nhau. MoDA thêm chiều thứ hai cho attention, để nó có thể hoạt động đồng thời theo chiều thứ tự và chiều sâu. AttnRes biến truyền thông tin giữa các lớp thành một thao tác attention. Hai hướng đi khác nhau, nhưng đều hướng tới một kết luận chung: attention không chỉ nên nhìn theo chiều ngang, mà còn phải chú ý theo chiều dọc.

Phép mở rộng này còn lớn hơn cả hai bài báo. Trong Transformer còn nhiều cơ chế cố định chỉ hoạt động trên một chiều duy nhất. Mỗi lớp phải thực hiện theo thứ tự, không thể bỏ qua. Mỗi head attention tính riêng rồi ghép lại, không có sự phối hợp động giữa các head. Mỗi token, dù dễ hay khó, đều đi qua cùng một con đường tính toán. Những thiết kế này ban đầu là những thỏa hiệp kỹ thuật để giúp mô hình dễ huấn luyện, dễ hội tụ.

Hướng phát triển của deep learning trong mười năm qua, nếu tóm gọn ở mức cao nhất, chính là một việc: trao trả càng nhiều quyết định cấu trúc cho chính mô hình. Các kernel convolution do con người thiết kế thủ công nay được thay thế bằng attention có thể học. Vị trí mã hóa cố định được thay thế bằng mã hóa xoay có thể học. Phân phối chuyên gia cố định được thay thế bằng routing có thể học. Giờ đây, cách thức truyền thông tin theo chiều sâu cũng bắt đầu do attention tự quyết định.

Karpathy nói chúng ta vẫn chưa thực sự hiểu hết nghĩa đen của “Attention is All You Need”. Có thể ông đúng, nhưng không phải là “chỉ cần attention”, mà là “attention vẫn chưa dùng đủ”. Nó đã tiến hóa qua nhiều thế hệ trên chiều thứ tự, nhưng mới bắt đầu trên chiều sâu.

Chiều sâu chính là chiến trường tiếp theo của attention.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.34KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.33KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.33KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.32KNgười nắm giữ:1
    0.00%
  • Ghim