Apa isi dari makalah baru yang dihapus oleh DeepSeek semalaman?

Semalam, peneliti multimodal DeepSeek, Chen Xiaokang, mengirim sebuah tweet di X dan mengumumkan makalah baru DeepSeek tentang teknologi multimodal berjudul 《Thinking with Visual Primitives》, menyatakan “Excited to release”.

Pagi ini, tweet tersebut dihapus, dan makalah di GitHub juga dicabut.

Namun, APPSO membaca seluruh isi makalah sebelum hilang. Setelah membacanya, mereka merasa bahwa pencabutan makalah ini mungkin bukan karena isinya bermasalah.

Justru sebaliknya, mungkin makalah ini mengungkapkan terlalu banyak.

Kamis lalu, kami baru saja menguji mode pengenalan gambar DeepSeek, membiarkannya menghitung jari, dia berpikir sejenak, mengeluh “Saya benar-benar pusing menghitungnya”, lalu salah menjawab. Saat itu, kami mengira ini masalah kecil selama tahap pengujian awal.

Makalah ini memberi tahu kita bahwa pusing menghitung jari sebenarnya menyembunyikan sebuah hambatan teknologi yang belum terselesaikan oleh GPT, Claude, Gemini secara kolektif.

Dan solusi yang diberikan DeepSeek, yang hampir terdengar lucu dan sederhana: memasang satu jari pada AI.

Chen Xiaokang menulis di tweet tersebut:

「Traditional CoT tetap berada di ruang linguistik, tetapi penalaran visual membutuhkan lebih. Dengan menggunakan titik dan kotak sebagai jangkar kognitif, model kami menjembatani Gap Referensi—meniru sinergi “tunjuk-untuk-berpikir” yang digunakan manusia.」

「Tradisional CoT tetap di ruang linguistik, tetapi penalaran visual membutuhkan lebih. Dengan menggunakan titik dan kotak sebagai jangkar kognitif, model kami menjembatani “kesenjangan referensi”—meniru sinergi “tunjuk-untuk-berpikir” yang digunakan manusia.」

Melihat dengan jelas dan menunjuk dengan tepat adalah dua hal yang berbeda

Saat ini, semua model multimodal besar yang melakukan penalaran gambar, pada dasarnya mengubah gambar yang dilihat menjadi teks, lalu melakukan penalaran rantai di ruang teks. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash, semuanya mengikuti pola ini.

Dalam dua tahun terakhir, fokus peningkatan dari OpenAI, Google, dan Anthropic terkonsentrasi pada satu masalah: bagaimana membuat model melihat lebih jelas. Pemotongan resolusi tinggi, pemblokiran dinamis, memperbesar gambar lalu memasukkannya. DeepSeek menyebut ini sebagai Perception Gap, kesenjangan persepsi.

Namun, makalah ini menunjukkan hambatan lain: Reference Gap, kesenjangan referensi. Model bisa melihat dengan jelas, tetapi selama proses penalaran tidak bisa menunjuk secara tepat ke bagian tertentu dalam gambar.

Anda bisa memahaminya seperti ini: dalam satu gambar, ada 25 orang berdiri rapat, dan Anda menggunakan bahasa untuk menggambarkan “orang di sebelah kanan baris ketiga yang memakai jersey biru”. Deskripsi ini sendiri sudah kabur. Saat model menghitung, ia kehilangan konteks, lupa siapa yang baru dihitung.

Bagaimana manusia menyelesaikan masalah ini? Sangat primitif: mengangkat jari, menunjuk satu per satu.

Model dengan 284 miliar parameter, dipasang satu jari

Solusi DeepSeek: membiarkan model secara langsung mengeluarkan koordinat gambar saat berpikir.

Bayangkan, model melihat gambar banyak orang, rantai pikirnya tidak lagi “Saya melihat seseorang di sebelah kiri yang memakai baju biru”, melainkan “Saya melihat orang ini” lalu menambahkan koordinat kotak, menandai orang tersebut. Setiap kali menghitung satu orang, buat satu kotak, dan setelah selesai menghitung semua, jumlah kotak yang dibuat adalah jawabannya.

Dua format koordinat: satu adalah kotak (bounding box), menggambar persegi panjang untuk menandai objek, cocok untuk menentukan posisi objek; satu lagi adalah titik (point), menandai satu lokasi di gambar, cocok untuk melacak jalur dan maze. DeepSeek menyebut keduanya sebagai “primitif visual”, unit terkecil dari penalaran.

Perubahan utama di sini: sebelumnya, model mengeluarkan koordinat sebagai jawaban akhir (“Target di sini”), sekarang koordinat terintegrasi dalam proses berpikir itu sendiri. Koordinat adalah tanda di atas kertas sketsa, bukan jawaban di lembar jawaban.

Mengompresi satu gambar hingga 7056 kali, tapi tetap bisa menghitung berapa orang di dalamnya

Model dasarnya adalah DeepSeek-V4-Flash, sebuah model MoE dengan 284 miliar parameter. MoE artinya: model otaknya sangat besar, tetapi setiap kali menjawab, hanya sebagian kecil neuron yang aktif, inference hanya mengaktifkan 13 miliar parameter. Mirip tim seratus orang, setiap tugas hanya mengerahkan 5 orang.

Pada bagian encoder visual, dilakukan kompresi tiga tingkat. Misalnya: Anda punya foto yang ingin dikirim ke teman, koneksi internet lambat. Langkah pertama, potong gambar menjadi kotak kecil; langkah kedua, gabungkan 9 kotak kecil menjadi satu (kompresi 3×3); langkah ketiga, kurangi lagi redundansi saat transmisi (KV Cache dikompresi 4 kali).

Angka nyata: gambar 756×756 piksel, 570.000 piksel, setelah kompresi menjadi 81 unit informasi. Rasio kompresi 7.056 kali.

Saat saya melihat angka ini, reaksi pertama adalah: ini masih bisa melihat dengan jelas? Tapi hasil makalah menunjukkan bahwa memang bisa. Tidak hanya melihat dengan jelas, bahkan menghitung dengan tepat ada berapa orang di gambar, yaitu 25.

Bandingkan: gambar 800×800 yang sama, Gemini-3-Flash membutuhkan sekitar 1100 token untuk merepresentasikan gambar ini, Claude-Sonnet-4.6 sekitar 870 token, GPT-5.4 sekitar 740 token. DeepSeek hanya menggunakan 90 unit informasi saat perhitungan akhir. Orang lain memakai lebih dari seribu kotak untuk mengingat satu gambar, DeepSeek cukup dengan 90 kotak, lalu seluruh kekuatan komputasi yang tersisa digunakan untuk “menunjuk”.

Bagaimana 40 juta data pelatihan dikumpulkan

DeepSeek mengumpulkan semua dataset berlabel “deteksi objek” dari platform seperti Huggingface, mendapatkan 97.984 sumber data setelah penyaringan awal.

Kemudian melakukan dua tahap penyaringan.

Tahap pertama, memeriksa kualitas label. Menggunakan AI untuk otomatis mengaudit tiga masalah: label berupa angka tidak bermakna (nama kategori seperti “0”, “1”), label berupa entitas pribadi (“MyRoommate”), label berupa singkatan kabur (“OK”, “NG” dalam deteksi industri, satu apel “OK” dan satu papan sirkuit “OK” sangat berbeda, AI tidak bisa belajar). Pada tahap ini, 56% data dihapus, tersisa 43.141.

Tahap kedua, memeriksa kualitas kotak. Tiga standar: terlalu banyak label yang hilang (setengah label hilang), kotak yang melenceng dan memotong setengah objek, kotak yang terlalu besar menutupi seluruh gambar (menunjukkan data awal berupa klasifikasi gambar yang diubah menjadi data deteksi tanpa informasi posisi). Setelah itu, lagi-lagi 27% data dihapus, tersisa 31.701.

Akhirnya, sampling berdasarkan kategori, deduplikasi, menghasilkan lebih dari 40 juta sampel berkualitas tinggi.

DeepSeek memilih untuk memperbesar data kotak terlebih dahulu, kemudian menambahkan data titik nanti. Alasannya sederhana: jika AI menandai sebuah kotak, jawabannya hampir pasti unik (mengelilingi objek secara tepat); tetapi jika menandai sebuah titik, posisi mana pun di objek dianggap benar, tidak ada jawaban pasti, sinyal pelatihan menjadi kabur. Selain itu, kotak sendiri berisi dua titik (kiri atas dan kanan bawah), setelah belajar menggambar kotak, menandai titik menjadi operasi pengurangan dimensi.

Bagaimana mengajarkan kemampuan “menunjuk” ini ke model

Strategi pasca pelatihan adalah “latih terpisah dulu, lalu gabungkan”.

DeepSeek pertama melatih model khusus menggambar kotak, kemudian melatih model khusus menandai titik. Pelatihan terpisah ini karena data belum cukup besar, dan menggabungkan kedua kemampuan bisa saling mengganggu.

Kemudian, kedua model ahli ini diperkuat dengan reinforcement learning. Bagaimana menilai apakah model “menggambar kotak dengan benar” atau “mengikuti jalur yang benar”? DeepSeek merancang sistem penilaian multi-dimensi: formatnya benar (apakah koordinat sesuai sintaks), logikanya masuk akal (apakah proses berpikir tidak kontradiktif), jawaban akurat (berapa jauh hasil akhir dari jawaban standar).

Data untuk reinforcement learning juga dipilih dengan cermat: model diizinkan mengerjakan N kali satu soal yang sama, soal yang selalu benar terlalu mudah dan tidak berkontribusi, soal yang selalu salah terlalu sulit dan tidak bisa belajar, hanya soal yang memiliki jawaban benar dan salah yang dipakai untuk latihan.

Langkah terakhir adalah menggabungkan kemampuan kedua ahli ke dalam satu model. Caranya: melatih model tunggal mengikuti output kedua ahli tersebut, seperti murid yang belajar dari dua guru berbeda mata pelajaran.

Setelah diberikan jari, bagaimana model menghitung

Menghitung 25 orang

Berikan sebuah foto tim sepak bola, tanya “Berapa orang di gambar ini?”

Proses berpikir: pertama, tentukan “Ini foto tim, harus menghitung semua orang, termasuk pemain dan pelatih”. Kemudian, model mengeluarkan 25 koordinat kotak sekaligus, menandai setiap orang dengan satu kotak. Setelah itu, hitung jumlahnya: barisan depan 4 orang + barisan tengah 9 orang + barisan belakang 8 orang + 2 pelatih di kiri + 2 pelatih di kanan = 25.

“Berapa ekor beruang di tanah?”

Gambar menunjukkan tiga beruang. Model secara berurutan memberi kotak dan menilai posisi masing-masing: yang pertama, di batang pohon dan memanjat secara vertikal, diabaikan; yang kedua, di tepi batu dan berjalan, dihitung; yang ketiga, di antara serpihan kayu dan tanah liat, dihitung. Jawaban: 2.

Ini bukan menghitung tiga beruang lalu mengurangi satu, tetapi menilai setiap beruang satu per satu “apakah di tanah” dengan koordinat yang terkait. Mereka benar-benar memeriksa satu per satu, bukan sekadar menebak.

Penalaran ruang multi-lompatan

Dalam sebuah adegan 3D, ada banyak bentuk geometris berwarna. Pertanyaannya: “Apakah ada objek karet berwarna ungu yang ukurannya sama dengan objek logam abu-abu?”

Model pertama menandai bola logam abu-abu, memastikan itu objek kecil. Kemudian, secara berurutan menandai objek kecil lain di scene: silinder logam cokelat, kotak logam biru, kotak karet biru, silinder karet kuning… enam objek dicek satu per satu, membandingkan warna, bahan, dan ukuran. Kesimpulannya: tidak ada karet ungu.

Enam kali penentuan posisi, enam kali penilaian. Setiap langkah memiliki koordinat jangkar, tidak akan terjadi “tunggu, tadi saya lihat di mana”.

Contoh kasus lain dari makalah:

Navigasi labirin: orang lain melempar koin, DeepSeek benar-benar mencari jalan

Makalah menguji empat tugas, labirin adalah yang paling berbeda.

Tugasnya sederhana: berikan gambar labirin, tanya apakah ada jalan dari titik awal ke akhir, jika ada gambarkan jalurnya. Ada tiga bentuk labirin: kotak, cincin, sarang lebah.

Model berjalan di labirin seperti saat Anda menggambar di kertas waktu kecil: pilih cabang jalan, sampai ujung, jika tidak bisa, kembali dan coba cabang lain. Bedanya, setiap langkah menandai titik koordinat di gambar, meninggalkan jejak.

Dalam makalah, ditampilkan proses lengkap labirin bulat: model menandai posisi awal dan akhir, lalu mulai eksplorasi. Setelah 18 langkah, dua kali masuk jalan buntu dan kembali, akhirnya menemukan jalur, dan mengoutputkan rangkaian koordinat jalur tersebut.

DeepSeek juga merancang labirin jebakan: terlihat ada jalan, tetapi di tengah-tengah ada bagian yang disumbat secara diam-diam. Labirin semacam ini menguji kesabaran, model tidak bisa hanya melihat jalur dekat titik awal, harus mencoba semua jalan yang memungkinkan untuk memastikan tidak ada jalan.

Akurasi perbandingan:

  • DeepSeek: 66.9%

  • GPT-5.4: 50.6%

  • Claude-Sonnet-4.6: 48.9%

  • Gemini-3-Flash: 49.4%

  • Qwen3-VL: 49.6%

Hanya ada dua jawaban untuk labirin: ada jalan atau tidak. Tebakan acak tepat 50%. GPT, Claude, Gemini, Qwen semua di sekitar 50%, sama seperti lempar koin. DeepSeek dengan 66.9% tidak tinggi, tapi dia benar-benar berjalan langkah demi langkah, bukan menebak.

Pelacakan jalur: versi ultimate untuk mencari kesalahan

Tugas ini lebih intuitif: banyak garis saling bersilangan, setiap garis dari satu tanda ke tanda lain. Bagaimana bentuk kabel headphone dari saku saat dikeluarkan, gambarnya seperti itu. Pertanyaannya: garis C mengarah ke mana?

Model mengeluarkan koordinat sepanjang garis, seperti jari yang melukis di atas kertas. Bagian yang berbelok diberi titik yang rapat, bagian lurus diberi jarang. Saat manusia mengikuti garis dengan mata, juga seperti itu, di tikungan melambat, di garis lurus dilalui cepat.

Makalah juga menambahkan versi sulit: semua garis memiliki warna dan ketebalan yang sama. Tidak bisa lagi membedakan garis berdasarkan warna, harus berdasarkan pola garis itu sendiri, mengikuti kontinuitasnya di persimpangan.

  • DeepSeek: 56.7%

  • GPT-5.4: 46.5%

  • Claude-Sonnet-4.6: 30.6%

  • Gemini-3-Flash: 41.4%

Angka 30.6% Claude cukup mengejutkan. Biasanya, ada empat sampai lima pilihan di ujung garis akhir, tebakan acak seharusnya di atas 20%, jadi 30.6% hanya sedikit lebih baik dari tebakan acak. Mungkin, dalam tugas pelacakan ruang murni ini, inferensi bahasa malah menghambat.

Bagaimana mengajarkan AI menavigasi labirin tanpa curang

Pelatihan labirin memiliki masalah nyata: jika hanya menilai dari jawaban benar atau salah, model cepat belajar trik, dan daripada harus mencari jalan, lebih baik menebak saja, karena berjalan serius tapi salah sama saja nilainya nol.

Solusi DeepSeek adalah memasukkan proses ke dalam skor. Setiap langkah eksplorasi yang sah diberi poin, melompati dinding dikurangi poin, semakin jauh berjalan semakin baik. Bahkan jika akhirnya tidak sampai ke tujuan, selama model melakukan eksplorasi yang cukup, tetap bisa mendapatkan skor bagus. Dengan begitu, model tidak punya motivasi untuk mencontek.

Labirin yang tidak bisa diselesaikan membutuhkan standar lebih tinggi: tidak cukup hanya mengatakan “tidak bisa”, harus membuktikan bahwa semua jalan yang bisa ditempuh sudah dicoba. Tingkat cakupan pencarian juga dihitung sebagai skor.

Sebuah easter egg, tiga keterbatasan

Data pasca pelatihan tidak mengandung bahasa Mandarin. Tapi model tetap bisa menggunakan bahasa Mandarin untuk penalaran primitif visual.

Berikan foto mesin kopi, tanya “Bagaimana membuat latte?”, model menandai posisi steam wand, teko susu, biji kopi, tombol latte dalam koordinat, lalu memberi langkah-langkah operasional. Kemampuan multibahasa diwarisi dari model dasar, pelatihan primitif visual tidak merusaknya.

Model juga bisa menggabungkan gambar dengan pengetahuan dunia: berikan foto Golden Gate Bridge, tanya “Apakah ada tim NBA di dekat sini?”, model menandai Golden Gate Bridge, menyimpulkan ini San Francisco, lalu menjawab Golden State Warriors.

Mengerti humor: sebuah irisan buah menunjukkan bintik alami yang membentuk wajah kucing sedih, model bisa menunjukkan kemiripan dan menjelaskan kenapa lucu.

Bisa memberi panduan escape room: menandai kunci di tempat tinggi, kursi di lantai, pintu berkunci, lalu menyarankan “Pindahkan kursi ke bawah kunci → Naik ke atas untuk mengambil kunci → Buka pintu”.

Makalah secara jujur menulis hal-hal yang saat ini belum bisa dilakukan.

Resolusi input terbatas. Output ViT terjebak di antara 81 sampai 384 unit informasi visual, saat menghadapi scene sangat detail (seperti menghitung jari), koordinatnya tidak cukup presisi. Ini mungkin penyebab langsung kegagalan saat pengujian menghitung jari kemarin.

Saat ini, diperlukan kata kunci tertentu untuk mengaktifkan mode primitif visual. Model belum bisa secara otomatis memutuskan “Saya harus tunjuk jari untuk soal ini”, harus diingatkan.

Kemampuan generalisasi penalaran topologi terbatas. Baik di jenis labirin yang sudah dilatih, tapi saat menghadapi struktur ruang baru, bisa gagal. Chen Xiaokang juga menulis di tweet yang dihapus:

「We’re still in the early stages; generalization in complex topological reasoning tasks isn’t perfect yet, but we’re committed to solving it.」

「Kami masih dalam tahap awal; generalisasi dalam tugas penalaran topologi kompleks belum sempurna, tapi kami berkomitmen untuk menyelesaikannya.」

Saat pengujian dua hari lalu, kemampuan pengenalan gambar DeepSeek (mengecek identitas pengunggah, mengaitkan logo paus dengan makna, koreksi diri, mengadakan “sidang kecil”) sejalan dengan cara berpikir yang dideskripsikan dalam makalah ini. Ia membangun jangkar visual di dalam pikiran, melakukan penalaran di sekitar jangkar tersebut, dan kembali jika menemukan kontradiksi.

Dan pusing menghitung jari adalah demonstrasi nyata dari Reference Gap. Dalam gambar jari yang saling tumpang tindih, hanya mengandalkan deskripsi bahasa untuk membedakan “yang ketiga dari kiri” dan “yang kedua dari kanan”, sama seperti Anda sendiri tidak mengangkat jari untuk menghitung orang yang berkerumun, pasti akan membingungkan.

Arah utama dari makalah ini adalah: evolusi berikutnya dari penalaran multimodal terletak pada mekanisme jangkar. DeepSeek dengan 90 unit informasi menyamai hasil yang dicapai orang lain dengan token yang jauh lebih banyak, dan kekuatan komputasi yang dihemat digunakan untuk “berpikir dan menunjuk secara bersamaan”.

Perlombaan resolusi bisa sedikit dilambatkan, mengajarkan model untuk menunjuk dengan jari lebih efektif daripada memberinya kacamata yang lebih mahal.

Setelah melihat paus ini, model bahkan menumbuhkan jari. Akurasi maze 66.9% masih jauh dari sempurna, tapi setidaknya dia berjalan dengan serius, tidak seperti beberapa yang lain yang hanya lempar koin.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan