Decode artikel panjang pertama setelah kepergian Lin Junyang: 6 wawasan untuk investasi AI

Tiga minggu setelah Lin Junyang hengkang dari Alibaba Qianwen, sebagai figur inti Qianwen Tongyi yang dulu sangat disorot, ia merilis tulisan teknis publik pertamanya pasca pengunduran diri berjudul “Dari ‘Pemikiran Berbasis Penalaran’ ke ‘Pemikiran Berbasis Agen’ (From “Reasoning” Thinking to “Agentic” Thinking’)”.

Artikel panjang berbahasa Inggris sepanjang 6000 kata ini meninjau kembali berdasarkan pengalaman praktis dan pengamatannya dalam pelatihan model di masa lalu, serta memberikan sejumlah pandangan arah yang cukup untuk menarik perhatian para peserta kompetisi AI.

Dalam artikel ini, Lin secara rinci menguraikan pentingnya paradigma pemikiran Agent terkait pelatihan model.

Mengenai fungsi umpan balik Agent terhadap pelatihan model AI, artikel sebelumnya dari Huashe Jianshi “Kebangkitan yang Pahit dari Agent: Kecerdasan Sedang Berpindah dari Bahasa ke Pengalaman” mencoba, berangkat dari pembelajaran penguatan Sutton, untuk menafsirkan alasan mengapa Agent adalah jalan yang tak terhindarkan menuju batas atas kecerdasan yang lebih tinggi.

Sementara itu, dalam artikel ini, Lin Junyang, dengan menggabungkan praktik teknis yang ia alami langsung dari tim Qianwen, memberikan lebih banyak referensi dan bukti yang bernuansa teknis keras bagi pemikiran agentik dengan detail rekayasa. Ia juga menunjukkan dengan lebih spesifik di mana sesungguhnya masalah dari pola penalaran tradisional, serta apa saja batasan inti dan titik persaingan utama dari agen masa depan.

Bagi mereka yang ingin memahami perubahan bentuk lintasan berikutnya AI, artikel ini mungkin setidaknya menyembunyikan 6 pelajaran investasi yang layak dicerna dengan serius.

1. Penurunan hasil marjinal dari penalaran

Pada paruh pertama tahun 2025 dan bahkan sebelumnya, seluruh industri sedang melakukan satu hal yang sama: membuat model “berpikir sedikit lebih lama”.

o1 dari OpenAI membuktikan bahwa “berpikir” bisa menjadi kemampuan inti yang dilatih secara khusus, dan industri pun bersemangat mengikuti perlombaan persenjataan ini. Keyakinan utamanya hanya satu: jika model menghabiskan lebih banyak komputasi pada tahap penalaran, maka ia akan menghasilkan jawaban yang lebih baik.

Namun Lin Junyang dalam tulisannya mengemukakan penilaian yang sangat tenang:

Lintasan penalaran yang lebih panjang tidak otomatis membuat model menjadi lebih cerdas.

Dalam banyak kasus, penalaran yang terlalu diekspos justru mengungkap alokasi sumber daya yang keliru.

Ini adalah kesimpulan yang patut diperhatikan karena bertentangan dengan intuisi.

Dari 2024 hingga 2025, logika penetapan harga pasar untuk “model penalaran” dibangun di atas sebuah asumsi sederhana: semakin lama model berpikir, semakin baik jawabannya; sehingga semakin panjang waktu penalaran, semakin tinggi nilainya.

Jumlah konsumsi GPU menjadi indikator pengganti untuk mengukur tingkat kecerdasan. Di pasar pendanaan tahap awal, narasi pendanaan banyak startup juga berpusat pada “model kami melakukan penalaran yang lebih mendalam”.

Namun Lin Junyang, berdasarkan pengalaman langsungnya di tim Qianwen, menunjukkan bahwa asumsi ini sedang kehilangan daya. Jika sebuah model mencoba memikirkan semua masalah dengan cara yang sama-sama panjang, itu berarti ia gagal secara efektif menentukan prioritas, gagal mengompresi informasi pada saat yang tepat, dan gagal bertindak tegas ketika sudah tiba waktunya. Ia menulis:

Penalaran harus dibentuk oleh pekerjaan yang menjadi target.

Jika targetnya adalah pengkodean, maka penalaran harus membantu model melakukan navigasi terhadap basis kode, perencanaan tugas, dan pemulihan dari kesalahan; jika targetnya adalah workflow berbasis agen, maka penalaran harus meningkatkan kualitas eksekusi pada skala waktu yang lebih panjang, “bukan menghasilkan teks penalaran perantara yang terlihat sangat hebat”.

Jika diterjemahkan ke bahasa investasi: imbal hasil marjinal dari komputasi penalaran sedang mengalami penurunan.

Rute teknis yang hanya menumpuk waktu penalaran sedang mendekati batas ekonominya. Perusahaan yang masih menjadikan “kedalaman penalaran” sebagai narasi valuasi inti mungkin perlu meninjau kembali di mana sebenarnya parit pertahanan mereka dibangun.

2. “Model tunggal” yang rapuh

Lin Junyang mengungkapkan dalam artikelnya sebuah pilihan jalur yang jarang diketahui: tim Qianwen pernah mencoba menggabungkan “mode penalaran” dan “mode instruksi” ke dalam satu model.

Tujuan ini terdengar secara alami benar. Sistem ideal harusnya seperti ahli yang berpengalaman: untuk masalah sederhana langsung menjawab, untuk masalah kompleks berpikir mendalam, dan bisa menilai sendiri kapan harus menggunakan mode yang mana.

Qwen3 adalah salah satu percobaan publik yang paling jelas ke arah tersebut. Ia memperkenalkan “mode berpikir hibrida”, mendukung satu keluarga model yang bisa memiliki dua perilaku—berpikir dan tidak berpikir—sekaligus, serta menekankan adanya anggaran penalaran yang dapat dikendalikan.

Namun Lin Junyang mengakui bahwa menggabungkan keduanya terdengar mudah, tetapi benar-benar melakukannya sangat sulit; dan kesulitannya tidak ada pada arsitektur model, melainkan pada data.

Model instruksi yang kuat dihargai karena sifatnya langsung dan ringkas, kepatuhan format yang tinggi, serta performa latensi rendah pada tugas perusahaan berfrekuensi tinggi dan berthroughput tinggi; sedangkan model berpikir yang kuat dihargai karena ia bersedia mengalokasikan lebih banyak token untuk masalah sulit, mampu mempertahankan struktur perantara yang koheren, dan mau mengeksplorasi jalur alternatif.

Dua profil perilaku ini secara alami saling “menarik” satu sama lain.

Seperti yang Lin Junyang jelaskan:

Jika data penggabungan tidak disaring dan dirancang dengan cukup presisi, hasilnya sering kali membuat kedua sisi sama-sama tidak berfungsi dengan baik: perilaku berpikir menjadi berisik, membengkak, dan ragu-ragu; sedangkan perilaku mode instruksi kehilangan ketajaman, keandalan, dan keunggulan biaya yang seharusnya dimiliki.

Inilah alasan versi 2507 Qwen yang akhirnya meluncurkan pembaruan Instruct dan Thinking yang berdiri sendiri, termasuk alasan mengapa ada versi independen 30B dan 235B.

Dalam penerapan komersial, kebutuhan banyak pelanggan justru adalah mode instruksi yang berthroughput tinggi, berbiaya rendah, dan sangat dapat dikendalikan. Memaksakan penggabungan justru membuat penetapan posisi produk menjadi kabur.

Anthropic menempuh jalur yang berlawanan. Claude 3.7 Sonnet didefinisikan sebagai model penalaran hibrida: pengguna bisa memilih jawaban biasa atau memperluas penalaran; Claude 4 melangkah lebih jauh, memungkinkan proses penalaran dan penggunaan alat saling berselang-seling. GLM-4.5 dan DeepSeek V3.1 kemudian juga bergerak ke arah serupa.

Untuk dua jalur ini, penilaian Lin Junyang adalah: integrasi yang benar-benar berhasil menuntut penalaran sebagai spektrum yang mulus dan berkelanjutan, sehingga model bisa beradaptasi memilih seberapa besar tenaga yang perlu dikeluarkan untuk berpikir. Jika tidak bisa, “pengalaman produk tetap tidak akan terasa natural”, pada dasarnya masih “dua kepribadian yang dipadukan secara kaku”.

Pelajaran bagi investor sangat jelas: jangan mudah terpikat oleh narasi “model tunggal” atau “satu model yang bisa melakukan semuanya”.

Satu model yang mengklaim mencakup semua skenario, dan model yang benar-benar dapat menjadi yang terbaik di setiap skenario, adalah dua hal yang berbeda.

Barrier teknologi yang benar-benar berharga, tersembunyi di komposisi data, desain proses pelatihan, dan alignment perilaku—area yang tidak bisa ditangkap oleh satu lembar skor benchmark. Pada “kehebatan menyeluruh” di PPT pendanaan, ketika masuk deployment komersial, biasanya harus menghadapi trade-off berbasis data.

3. Menaikkan tingkat sasaran pelatihan

Ringkasan yang paling berbobot dari seluruh tulisan Lin Junyang mungkin adalah: “Kita sedang beralih dari era yang berfokus pada melatih model, menuju era yang menjadikan pelatihan agent sebagai pusat.”

Di artikel sebelumnya, kita mencoba membuktikan keniscayaan logika perubahan ini: batas atas data statis adalah batas dari dunia yang sudah diketahui, dan hanya dengan membuat agent terus berinteraksi dalam lingkungan nyata, barulah batas itu bisa ditembus.

Dalam artikel ini, Lin Junyang mungkin memberi penilaian tersebut dengan bahasa rekayasa yang sangat konkret:

Penalaran berbasis penalaran menilai kualitas pemikiran internal model sebelum memberikan jawaban final—misalnya apakah bisa memecahkan teorema, menulis pembuktian, menghasilkan kode yang benar, dan lulus uji benchmark.

Semua itu terjadi dalam lingkungan yang tertutup dan dapat dikendalikan, sebuah pertunjukan intelektual mandiri.

Sasaran optimasi pemikiran berbasis agent sepenuhnya berbeda.

Ia harus menangani masalah yang dapat dihindari oleh model penalaran: memutuskan kapan harus menghentikan penalaran dan mengambil tindakan; memilih alat mana yang dipanggil dan urutan pemanggilannya; menyerap noise atau observasi yang tidak lengkap dari lingkungan; merevisi rencana setelah kegagalan; menjaga konsistensi di antara banyak putaran interaksi.

Yang diperhatikan Lin Junyang adalah “apakah, saat model berinteraksi dengan lingkungan, ia dapat terus mendorong penyelesaian masalah”. Masalah inti berubah dari “apakah model bisa berpikir cukup lama” menjadi “apakah model bisa berpikir dengan cara yang mendukung tindakan efektif”.

Setiap tantangan ini berpadanan dengan “jejak keputusan pada struktur kausalitas” tindakan.

Bagi investasi AI, makna dari pergeseran ini sangat mendalam.

Dulu, dalam validasi umum Scaling Law, indikator inti mengevaluasi perusahaan AI adalah model itu sendiri—seberapa banyak parameter, berapa skor benchmark, dan seberapa cepat inferensinya.

Namun jika sasaran pelatihan berubah dari model menjadi sistem yang tersusun dari “model + lingkungan”, maka kerangka evaluasinya juga harus ikut berubah.

Masalah bernilai di masa depan akan menjadi: seberapa banyak skenario nyata di mana agent perusahaan ini terus berjalan? Berapa banyak data interaksi dengan struktur kausal yang telah dikumpulkannya? Seberapa luas cakupan lingkungannya dan seberapa kaya sinyal umpan baliknya? Seberapa cepat closed loop “model + lingkungan” berputar?

Model hanyalah bagian dari sistem, bukan keseluruhan. Jika lalu memberi valuasi perusahaan agent hanya berdasarkan skor benchmark model, seperti memberi nilai mobil off-road hanya berdasarkan hasil 0-100 plus akselerasi, besar kemungkinan akan salah menangkap indikator.

4. Infrastruktur yang diremehkan

Dalam artikelnya, Lin Junyang menghabiskan banyak porsi untuk membahas infrastruktur. Ini adalah bagian yang dalam investasi AI lebih mudah diabaikan, tetapi mungkin paling dalam memengaruhi lanskap persaingan.

Dalam reinforcement learning berbasis penalaran, model menghasilkan lintasan penalaran, evaluator memberikan skor, pembaruan strategi dilakukan, tetapi lingkungan hanya berperan sebagai penguji statis.

Namun dalam intelligent agent reinforcement learning, keseluruhan logika teknis mengalami perubahan kualitas.

Lin Junyang menggambarkan sebuah gambaran: strategi agent tertanam dalam kerangka eksekusi yang sangat besar—server alat, browser, terminal, mesin pencari, simulator, eksekusi sandbox, lapisan API, sistem memori, serta berbagai kerangka orkestrasi.

Lingkungan tidak lagi menjadi penonton, melainkan menjadi bagian dari sistem pelatihan itu sendiri. Ia memberi contoh yang sangat visual: bayangkan sebuah agent pengkodean perlu menempatkan kode yang dihasilkannya ke lingkungan pengujian real-time untuk dieksekusi. Pada sisi penalaran, proses tersendat karena harus menunggu umpan balik eksekusi; pada sisi pelatihan, ia “kehabisan stok” karena tidak memperoleh lintasan penyelesaian. Seluruh pipeline pemanfaatan GPU jauh lebih rendah dibanding classical inference reinforcement learning. Ditambah lagi latensi alat, sebagian observabilitas, dan lingkungan berstatus, inefisiensi hanya akan semakin diperbesar.

Dengan sebuah metafora: pelatihan model penalaran seperti mengerjakan soal di ruang kelas yang tenang—soalnya punya jawaban standar, umpan balik benar/salah diberikan seketika. Pelatihan agent seperti membangun di lokasi proyek yang bising—pasokan material tidak pasti, cuaca berubah, gerakan pekerja lain memengaruhi progres Anda, dan sering kali perlu menunggu beton mengering untuk mengetahui apakah pengecorannya benar.

Infrastruktur yang dibutuhkan untuk mode kelas dan mode proyek pada dasarnya bukan masalah rekayasa dengan skala yang sama.

Itulah mengapa Lin Junyang menekankan: “Pelatihan dan inferens harus dipisahkan lebih menyeluruh.” Jika tidak, throughput pelatihan agent akan cepat runtuh; bahkan sebelum mencapai target kapabilitas, eksperimen sudah menjadi lambat, menyakitkan, dan sulit diperluas.

Mungkin inilah pelajaran keempat untuk investasi AI: logika investasi infrastruktur AI sedang mengalami pergeseran struktural.

Di masa lalu, sumber daya inti adalah komputasi itu sendiri—siapa pun yang punya lebih banyak GPU akan menang di garis start. Di masa depan, sumber daya inti adalah kemampuan rekayasa sistem untuk mengoordinasikan seluruh proses pelatihan, simulasi lingkungan, dan pengumpulan umpan balik.

Kemampuan seperti ini sangat sulit direplikasi, dan jumlah perusahaan yang benar-benar memilikinya jauh lebih sedikit dibanding perusahaan yang hanya memiliki klaster komputasi besar.

Jika komputasi adalah bata, maka infrastruktur pelatihan agent adalah kemampuan desain bangunan; bata bisa dibeli, tetapi kemampuan desain tidak bisa dibeli.

5. Kelangkaan kualitas lingkungan

Dalam artikelnya, Lin Junyang mengajukan sebuah analogi yang sangat penuh wawasan: “Di era SFT (supervised fine-tuning), kita terpaku pada keberagaman data; di era agent, kita seharusnya terpaku pada kualitas lingkungan: stabilitas, keaslian, cakupan, tingkat kesulitan, keragaman status, kekayaan umpan balik, kemampuan anti-exploit, serta skalabilitas yang dihasilkan oleh rollout (menjalankan alur lengkap).”

Dalam dua tahun terakhir, data adalah kata kunci paling inti dalam narasi investasi AI. Siapa yang punya lebih banyak data pelatihan berkualitas tinggi, dialah yang punya model lebih kuat. Konsep seperti data wall, data moat, dan data flywheel menopang banyak logika pendanaan dan premi valuasi.

Namun penilaian Lin Junyang mengarah pada perubahan yang lebih mendasar:

Saat sasaran pelatihan bergeser dari model menjadi agent, definisi kelangkaan sumber daya itu sendiri berubah; ia mungkin menjadi semacam lingkungan pelatihan yang dinamis, dapat diinteraksi, dan mampu memberikan sinyal umpan balik yang kaya.

Di artikel sebelumnya, kita mengusulkan bahwa agent memberi model “tulang punggung keputusan”, bukan “bayangan bahasa”.

Penjelasan Lin Junyang secara tepat menggambarkan di bengkel seperti apa tulang punggung ini ditempa—lingkungan adalah bengkel, dan itulah yang menentukan kekuatan tulang.

Ia bahkan menilai:

Pembangunan lingkungan sudah mulai berubah dari “proyek sampingan yang dikerjakan sambil lalu” menjadi jalur kompetisi startup yang sesungguhnya.

Bagi investasi AI, sebuah kategori aset investasi baru mungkin sedang terbentuk. Ini berbeda dari perusahaan model atau komputasi sebelumnya, melainkan “perusahaan lingkungan”—perusahaan yang secara khusus membangun lingkungan simulasi berkualitas tinggi, sangat mirip, dan dapat diskalakan untuk pelatihan agent.

Jika target agent adalah berjalan dalam pengaturan yang mendekati lingkungan produksi, maka lingkungan itu sendiri menjadi bagian dari tumpukan kemampuan inti. Jalur ini hari ini masih nyaris belum dihargai sepenuhnya oleh investor AI arus utama.

  1. Risiko tersembunyi dari kecurangan

Dalam artikelnya, Lin Junyang juga membahas cukup panjang sebuah masalah yang hampir sepenuhnya tidak ada dalam radar investor—reward hacking (kecurangan imbalan).

Ini adalah dimensi risiko yang ia ungkapkan di sisi pelatihan dan yang sangat terselubung. Ia menulis:

Begitu model memperoleh akses ke alat yang benar-benar berguna, reward hacking menjadi jauh lebih berbahaya.

Seperti asumsi risiko Agent dalam artikelnya:

Model dengan kemampuan pencarian mungkin belajar untuk langsung mencari jawaban daripada belajar bernalar dalam proses reinforcement learning;

Agent pengkodean mungkin memanfaatkan informasi masa depan di repositori kode, menyalahgunakan log, atau menemukan jalan pintas yang membuat tugas itu sendiri menjadi tidak valid

Lingkungan dengan kebocoran tersembunyi akan membuat strategi tampak seperti “superman”, padahal sebenarnya yang ia pelajari hanyalah kecurangan.

Alat yang lebih kuat membuat model lebih berguna, tetapi sekaligus memperluas permukaan serangan dari pseudo-optimization. Semakin kuat alatnya, semakin beragam cara untuk menipu.

Ini sangat penting bagi investasi AI.

Ketika melihat perusahaan merilis capaian benchmark agent yang mengagumkan, mungkin perlu bertanya satu lapis lagi: indikator-indikator ini diukur dalam lingkungan seperti apa? Apakah lingkungan tersebut telah menerapkan desain pencegahan kebocoran dan anti-作弊 secara sistematis? Jika sebuah agent tampil luar biasa dalam pengujian tetapi lingkungan pengujian itu memiliki kebocoran informasi tersembunyi, maka nilai komersial dari “penampilan luar biasa” tersebut sebenarnya bisa jadi nol.

Lebih berbahaya lagi, produk yang diluncurkan berdasarkan kemampuan palsu ini akan menunjukkan tingkat kegagalan yang jauh lebih tinggi dari yang diharapkan dalam skenario bisnis nyata.

Lin Junyang menyimpulkan:

Perlu mengantisipasi bahwa batch berikutnya hambatan riset yang benar-benar serius akan berasal dari desain lingkungan, ketahanan evaluator, protokol anti-kecurangan, serta desain antarmuka yang lebih prinsipil antara strategi dan dunia.

Ini berarti penghalang persaingan di era agent tidak hanya mungkin ada di lapisan model, tetapi juga pada ketegasan sistem evaluasi dan kemampuan lingkungan untuk tahan terhadap kelemahan (anti-robustness).

Tim yang mampu membangun lingkungan pelatihan dan kerangka evaluasi yang “tidak bisa disisipi celah” memiliki kemampuan yang sangat langka dan sulit direplikasi;

sebaliknya perusahaan yang mengabaikan lapisan ini dan hanya mengejar skor benchmark yang terlihat bagus, kapan saja bisa mengalami masalah saat deployment nyata.

Di bagian penutup artikel, Lin Junyang menulis satu kalimat yang bisa menjadi rangkuman untuk enam pelajaran di atas:

Jalur evolusi masa depan akan dimulai dari melatih model, lalu melatih agent, kemudian melatih sistem.

Penghalang persaingan era penalaran berasal dari algoritma reinforcement learning yang lebih baik, sinyal umpan balik yang lebih kuat, dan pipeline pelatihan yang lebih dapat diskalakan.

Penghalang persaingan era agent berasal dari lingkungan yang lebih baik, koherensi pelatihan yang lebih rapat antara penalaran dan inferens, rekayasa Harness yang lebih kuat, serta kemampuan untuk benar-benar menutup closed loop antara keputusan model dan konsekuensinya.

Dulu berinvestasi pada AI, orang menilai siapa yang memiliki model paling kuat. Ke depan berinvestasi pada AI, kemungkinan besar orang akan melihat siapa yang memiliki closed loop sistem yang paling rapat.

Peringatan Risiko dan Penafian

        Ada risiko di pasar, berinvestasilah dengan hati-hati. Artikel ini tidak merupakan nasihat investasi pribadi, dan juga tidak mempertimbangkan tujuan investasi khusus pengguna tertentu, kondisi keuangan, atau kebutuhan mereka. Pengguna harus mempertimbangkan apakah pendapat, pandangan, atau kesimpulan apa pun dalam artikel ini sesuai dengan kondisi spesifik mereka. Berinvestasi berdasarkan hal tersebut, tanggung jawab ada pada pengguna.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan