Musk meneruskan makalah Kimi memicu diskusi besar di Silicon Valley, apa yang akan menjadi bidang pertempuran Attention berikutnya?

Tanggal 16 Maret 2026, tim Kimi mengunggah sebuah makalah berjudul Attention Residuals ke arXiv, dan kemudian semuanya dengan cepat menjadi tidak terkendali. Elon Musk membagikan ulang, Karpathy memberi komentar, “Kita belum benar-benar menganggap serius judul Attention is All You Need,” dan mantan pendiri OpenAI Jerry Tworek langsung memberi empat kata, deep learning 2.0. Sebuah makalah arsitektur dari tim China mampu memicu diskusi sebesar ini di Silicon Valley, dan kali terakhir hal serupa terjadi mungkin saat DeepSeek-V3.

Namun, meskipun ramai, sebagian besar diskusi tetap pada tingkat “Kimi membuat sesuatu yang baru, para tokoh besar sangat antusias.” Yang terabaikan adalah, pada hari yang sama, tim Seed dari ByteDance dan Universitas Sains dan Teknologi Hubei merilis makalah lain berjudul Mixture-of-Depths Attention (MoDA), yang menyelesaikan masalah yang sama sekali berbeda, menggunakan pendekatan yang berbeda pula. Dalam minggu yang sama, makalah ketiga dari Nanjing University oleh Dilxat Muhtar dan MPI oleh Shiwei Liu berjudul “When Does Sparsity Mitigate the Curse of Depth in LLMs” memberikan laporan patologis paling akurat dari sisi teori.

Ketiga makalah ini muncul secara intensif dan menargetkan tujuan yang sama. Ini bukan kebetulan. Sebuah masalah struktural yang telah diabaikan selama hampir sepuluh tahun akhirnya mencapai titik kritis yang tidak bisa lagi diabaikan.

Masalahnya bukan pada dimensi urutan perhatian. Dalam beberapa tahun terakhir, perhatian telah berevolusi melalui banyak generasi, dari multi-head attention ke grouped query attention, kemudian MLA dari DeepSeek, hingga berbagai varian sparse, semuanya berusaha mengoptimalkan cara token saling melihat satu sama lain. Perlombaan senjata ini sangat menarik, tetapi menutupi satu kenyataan—cara transmisi informasi antar lapisan, sejak makalah Transformer pertama kali dipublikasikan pada 2017, jawabannya selalu sama. Residual connection, h = h + f(h), sebuah operasi penjumlahan tanpa parameter belajar.

Semua output dari lapisan-lapisan sebelumnya dijumlahkan secara setara. Tidak ada pilihan, tidak ada pelupaan, tidak ada pembelajaran. Kontribusi setiap lapisan diperlakukan sama, dimasukkan ke dalam residual stream tanpa membedakan apakah yang dipelajari adalah fitur penting atau hanya noise.

Residual connection adalah “solusi sementara” paling sukses dalam sejarah deep learning.

Solusi Sementara Paling Sukses

Residual connection diperkenalkan oleh He Kaiming pada tahun 2015 dalam ResNet. Ide dasarnya sangat sederhana: jaringan yang terlalu dalam, sekitar dua puluhan lapis, sulit dilatih karena gradien menghilang, sehingga parameter lapisan-lapisan terdalam hampir tidak mengalami pembaruan. Solusinya, tambahkan “jalan tol” yang cepat, agar input bisa langsung melewati lapisan tersebut dan langsung ke output. Bahkan jika lapisan itu tidak belajar apa-apa, informasi dan gradien setidaknya bisa lewat melalui jalan pintas ini. Hasilnya langsung terasa, ResNet mampu memperluas jaringan dari sekitar dua puluh lapis menjadi lebih dari seratus lapis. Dua tahun kemudian, Transformer muncul dan residual connection diadopsi tanpa perubahan. Sejak saat itu, desain ini tidak pernah diubah.

Bukan berarti tidak pernah dicoba. Variasi seperti ReZero, FixUp, Highway Network pernah dibuat, agar bobot residual bisa dipelajari. Tapi tidak ada yang menjadi arsitektur utama karena residual connection terlalu praktis. Sederhana, stabil, hampir tidak menambah beban komputasi, dan pada skala model saat itu, efek sampingnya belum terdeteksi.

44% lapisan berjalan kosong

Apa efek sampingnya? Pada awal 2025, tim dari Westlake University, Emory, dan MPI yang dipimpin Shiwei Liu mempublikasikan “The Curse of Depth,” dan pada Maret tahun ini, makalah dari Nanjing University oleh Dilxat Muhtar dan lainnya berjudul “When Does Sparsity Mitigate the Curse of Depth in LLMs” memberikan diagnosis kuantitatif yang lebih rinci. Dalam arsitektur model besar yang umum digunakan saat ini, transformasi lapisan dalam semakin mendekati identitas. Input apa pun yang diberikan, outputnya sama, lapisan itu tidak melakukan apa-apa.

Angka-angkanya sangat mencolok. Para peneliti menggunakan “skor kegunaan” untuk mengukur apakah setiap lapisan melakukan transformasi yang bermakna. Pada model 12 lapis, semua lapisan aktif. Pada 16 lapis, tiga lapis tidak berfungsi. Pada 24 lapis, sembilan lapis tidak berfungsi. Pada 32 lapis, 14 lapis tidak berfungsi, hampir 44% lapisan tidak mempelajari apa-apa. Jumlah parameter meningkat dari 900 juta menjadi 2,3 miliar, dengan biaya tambahan 156%, tetapi jumlah lapisan efektif hanya bertambah dari 12 menjadi 18.

Diagnosa kuantitatif dari kutukan kedalaman—efisiensi penambahan lapisan efektif menurun seiring pertumbuhan model

Ini terkait langsung dengan cara kerja residual connection. Output setiap lapisan ditambahkan ke “jalur utama” melalui residual. Semakin dalam jaringan, sinyal yang terkumpul di jalur utama semakin besar (bisa diibaratkan sebagai “volume latar belakang” yang terus meningkat), tetapi amplitudo sinyal baru dari setiap lapisan terbatas. Pada lapisan yang sangat dalam, sinyal baru ini tertutup oleh noise latar belakang, sehingga input dan output hampir sama, lapisan itu menjadi tidak berarti.

Residual connection menyelesaikan masalah “mengirim gradien”, tetapi menciptakan masalah “memberikan makna pada kedalaman”.

Di era model besar, konsekuensinya sangat nyata. Satu lapisan membutuhkan puluhan miliar operasi floating point. Jika sebuah model 128 lapis memiliki 44% lapisan yang tidak aktif, hampir enam puluh lapis dari total daya komputasi digunakan untuk hal yang tidak berguna. Setelah bertahun-tahun mengoptimalkan efisiensi inferensi—dengan quantization, distillation, pruning, sparse attention, dan kompresi cache KV—semuanya diarahkan untuk mempercepat “perhitungan yang berguna”.

Black hole efisiensi terbesar bukan terletak pada kompleksitas kuadrat dari perhatian, melainkan pada operasi penjumlahan sederhana yang sudah ada sejak 2015.

Menambahkan dimensi kedalaman ke perhatian

Tim Seed dari ByteDance memilih jalur yang berbeda. Mereka tidak mengubah residual connection, melainkan menambahkan dimensi kedua ke mekanisme perhatian itu sendiri.

Perhatian standar Transformer hanya beroperasi di dimensi urutan, yaitu, setiap token di lapisan saat ini melihat ke token lain di lapisan yang sama melalui KV. Perubahan MoDA sangat intuitif: memasukkan KV dari lapisan-lapisan sebelumnya ke dalam kandidat perhatian. Saat token di lapisan L melakukan perhitungan perhatian, ia tidak hanya melihat token lain di lapisan yang sama, tetapi juga bisa langsung melihat KV dari lapisan 1 sampai L-1. Dimensi urutan dan kedalaman digabungkan dan dinormalisasi bersama dalam satu Softmax.

Ide ini tidak sulit dipahami, yang sulit adalah bagaimana mewujudkannya tanpa memperlambat kecepatan.

Mechanisme perhatian dua dimensi MoDA—dimensi urutan dan kedalaman di-normalisasi bersama dalam satu Softmax

Memasukkan semua KV dari lapisan-lapisan sebelumnya ke perhatian akan menyebabkan ledakan perhitungan. Pada model 32 lapis, lapisan ke-32 harus melihat semua KV dari 31 lapisan sebelumnya, secara efektif memperpanjang panjang urutan 32 kali lipat. Inti dari engineering MoDA adalah strategi “reordering grup” yang memungkinkan memilih sebagian KV dari lapisan-lapisan sebelumnya, kemudian mengatur ulang secara grup ke dalam memori yang berurutan, sehingga operasi matriks GPU dapat berjalan efisien.

Secara spesifik, MoDA memperkenalkan mekanisme “aliran kedalaman” (depth stream). Tidak semua lapisan melihat semua lapisan sebelumnya, melainkan melalui routing yang dapat dipelajari, memilih lapisan-lapisan yang paling relevan. Pendekatan ini mirip dengan Mixture-of-Experts—bukan mengaktifkan semua “ahli”, melainkan secara dinamis memilih yang diperlukan. Perbedaannya, “ahli” di sini adalah lapisan-lapisan dari kedalaman berbeda dari masa lalu.

Pada panjang urutan 64K, efisiensi operator MoDA mencapai 97,3% dari FlashAttention-2. Setelah menambahkan mekanisme perhatian kedalaman secara keseluruhan, kecepatan hanya melambat kurang dari 3%.

Strategi reordering grup—memindahkan KV dari lapisan-lapisan sejarah yang tersebar ke memori berurutan

Pada model dengan 1,5 miliar parameter (berdasarkan skema pelatihan OLMo2), MoDA meningkatkan rata-rata performa di 10 tugas downstream sebesar 2,11%, dengan biaya komputasi tambahan hanya 3,7%. Terlihat kecil, tetapi ini adalah peningkatan arsitektur, bukan hasil dari lebih banyak data atau pelatihan yang lebih lama. Selain itu, efek MoDA semakin besar seiring peningkatan skala model—pada model yang lebih besar, degradasi kedalaman menjadi lebih parah, dan perbaikan yang diberikan MoDA menjadi lebih nyata.

Perbandingan performa MoDA di 10 tugas downstream

Lebih menarik lagi, reaksi antara MoDA dan Post-Norm. Hampir semua model besar saat ini menggunakan Pre-Norm (normalisasi sebelum perhatian), karena Post-Norm (normalisasi setelah perhatian) secara teori lebih baik, tetapi pelatihan tidak stabil. Mekanisme KV kedalaman dari MoDA secara kebetulan memberikan saluran gradien tambahan untuk Post-Norm, sehingga masalah ketidakstabilan yang dulu ada tidak lagi menjadi ancaman.

Kombinasi MoDA + Post-Norm membuka kemungkinan baru—pengorbanan yang dilakukan demi stabilitas pelatihan (menggunakan Pre-Norm) mungkin bisa dipertimbangkan kembali.

Perbedaan kerugian validasi antara Pre-Norm dan Post-Norm setelah penambahan KV kedalaman

Tidak membuka jalan baru, melainkan memperbaiki jalan lama

MoDA tidak mengubah residual connection, melainkan membuka jalur lain di luar residual. Pada hari yang sama, tim Kimi mengusulkan Attention Residuals (AttnRes), yang mengambil pendekatan yang lebih langsung, yaitu memodifikasi residual connection itu sendiri.

Residual connection standar sangat sederhana: menjumlahkan secara setara output dari semua lapisan sebelumnya dan memasukkannya ke jalur utama. Tidak ada pilihan, tidak ada pelupaan. AttnRes mengganti penjumlahan setara ini dengan operasi perhatian, di mana setiap lapisan menggunakan statusnya sendiri sebagai query, dan semua output lapisan sebelumnya sebagai kandidat, kemudian menggunakan perhatian untuk menentukan fitur mana yang berguna dan berapa bobotnya.

Residual connection berubah dari formula tetap menjadi rute dinamis yang dapat dipelajari.

Inti dari AttnRes—menggantikan penjumlahan setara residual dengan perhatian

Biaya tambahan adalah setiap lapisan harus menjalankan satu operasi perhatian kedalaman lagi, yang tidak kecil. Tim Kimi menggunakan strategi block-wise (Block AttnRes) untuk mengendalikan biaya, membagi lapisan menjadi beberapa blok, melakukan perhatian lengkap di dalam blok, dan antar blok hanya memperhatikan representasi agregat tingkat blok.

AttnRes sudah diintegrasikan ke dalam Kimi Linear (total parameter 48 miliar / 3 miliar aktivasi), telah dilakukan pretraining di 1,4 triliun token, dan hasilnya konsisten di berbagai skala model. Makalah ini sudah banyak dilaporkan, detail teknisnya tidak perlu diulang. Yang penting di sini adalah membandingkannya dengan jalur MoDA.

Kurva pelatihan dan eksperimen ablation AttnRes

Kedua jalur ini mengidentifikasi penyebab yang sama, yaitu, informasi dangkal dari lapisan-lapisan dangkal sering kali teredam oleh pembaruan residual. Perbedaannya, MoDA tidak menyentuh residual connection, melainkan menambahkan dimensi kedalaman ke perhatian, sehingga lapisan dalam bisa langsung mengakses fitur asli dari lapisan dangkal tanpa melalui residual stream. AttnRes, sebaliknya, langsung memodifikasi residual dengan mengganti penjumlahan setara menjadi perhatian berbobot. Satu jalur “membuat jalan baru”, yang lain “memperbarui jalan lama”.

Kedua makalah muncul di hari yang sama, berbeda jalur, tetapi tujuan sama. Ini bukan kebetulan. Masalah kedalaman perhatian sudah menjadi konsensus komunitas riset, dan perbedaannya hanya dari sudut mana mereka memandangnya.

Konsistensi efektivitas AttnRes di berbagai skala model

Membangun dari kerangka yang tidak lagi digunakan

Kembali ke pertanyaan awal, mengapa masalah kedalaman yang kosong ini baru mulai dipahami secara serius pada 2026?

Karena residual connection terlalu praktis. Ia menyelesaikan masalah paling mendesak saat itu—gradien menghilang—dengan biaya yang dapat dikendalikan (degradasi kedalaman di model kecil tidak terlalu terlihat), dan solusi alternatifnya belum matang (ReZero, Highway Network belum terbukti secara besar-besaran). Tidak ada yang terdorong untuk mengubahnya. Bukan karena itu pilihan desain yang sengaja dipertahankan, melainkan karena terlupakan sebagai solusi sementara. Kerangka kerja awal yang dibangun, setelah selesai, lupa untuk dicopot. Lama kelamaan, orang mengira itu adalah dinding penyangga utama.

Efek pengenceran sinyal residual—semakin dalam lapisan, semakin sulit sinyal baru terdengar

Namun, yang benar-benar membuat masalah ini sulit terdeteksi bukanlah residual connection itu sendiri, melainkan bahwa mekanisme perhatian selama ini hanya beroperasi dalam satu dimensi. Delapan tahun terakhir, semua evolusi perhatian—multi-head, grouped query, sparse, linear—berfokus pada pengembangan di dimensi urutan. Bagaimana token saling melihat satu sama lain telah dioptimalkan berkali-kali. Tapi, bagaimana lapisan saling melihat satu sama lain? Pertanyaan ini hampir tidak pernah diajukan. Dimensi kedalaman adalah area buta perhatian.

MoDA dan AttnRes membuka area buta ini dari sudut berbeda. MoDA menambahkan dimensi kedua ke perhatian, memungkinkan perhatian beroperasi secara bersamaan di dimensi urutan dan kedalaman. AttnRes mengubah transmisi informasi antar lapisan menjadi operasi perhatian. Jalur berbeda, tetapi keduanya menyimpulkan bahwa perhatian tidak seharusnya hanya melihat secara horizontal, tetapi juga secara vertikal.

Perluasan dari kesimpulan ini jauh lebih besar daripada makalahnya sendiri. Masih banyak mekanisme tetap di Transformer yang hanya beroperasi dalam satu dimensi. Setiap lapisan harus dieksekusi secara berurutan, tidak bisa dilewati. Setiap kepala perhatian dihitung secara independen dan digabungkan, tanpa koordinasi dinamis antar kepala. Setiap token, tidak peduli sulit atau mudah, mengikuti jalur komputasi yang sama. Semua ini awalnya adalah kompromi rekayasa untuk memastikan model bisa dilatih dan konvergen.

Perkembangan deep learning selama sepuluh tahun terakhir, jika disederhanakan, intinya adalah satu hal: mengembalikan lebih banyak keputusan struktural dari tangan manusia ke model itu sendiri. Kernel konvolusi yang dirancang secara manual digantikan oleh perhatian yang dapat dipelajari. Posisi encoding tetap digantikan oleh encoding rotasi yang dapat dipelajari. Pembagian expert tetap digantikan oleh routing yang dapat dipelajari. Sekarang, cara aliran informasi di dimensi kedalaman juga mulai diputuskan oleh perhatian sendiri.

Karpathy mengatakan kita belum benar-benar menganggap serius arti harfiah dari “Attention is All You Need.” Mungkin dia benar. Tapi bukan berarti “perhatian cukup,” melainkan “perhatian belum cukup digunakan.” Di dimensi urutan, perhatian sudah berevolusi banyak generasi, tetapi di dimensi kedalaman, baru saja dimulai.

Kedalaman adalah medan perang berikutnya untuk perhatian.

Sumber artikel: Tencent Technology

DEEPSEEK-5,68%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan