Alibaba merilis Qianwen 3.5, kinerja setara dengan Gemini 3, harga Token hanya 1/18 dari itu

robot
Pembuatan abstrak sedang berlangsung

Tahun Anjing Menjelang Akhir, Model Qwen yang Lebih Kuat dari Alibaba Hadir.

Pada hari Imlek, 16 Februari, Alibaba merilis model besar generasi baru Qwen3.5-Plus secara terbuka. Qwen3.5 melakukan pra-pelatihan pada data gabungan teks dan visual, mencapai terobosan baru dalam multimodal asli, menunjukkan performa unggul dalam penalaran, pemrograman, agen cerdas, dan berbagai pengujian standar lainnya, serta meraih beberapa posisi terbaik dalam penilaian pengenalan visual yang otoritatif.

Terobosan inti dari Qwen3.5** terletak pada pemecahan paradoks “efisiensi-akurasi” model besar secara sistematis dari segi arsitektur.** Melalui mekanisme perhatian campuran, model mampu fokus secara dinamis pada teks panjang, menghilangkan pemborosan daya komputasi untuk perhitungan penuh; sementara arsitektur MoE yang sangat jarang mengaktifkan hanya 5% dari parameter, memanfaatkan total 3970 miliar parameter pengetahuan, menurunkan biaya penalaran ke tingkat terendah.

Seiring peningkatan efisiensi, kemampuan prediksi multi-token asli memungkinkan model beralih dari “mengucapkan kata demi kata” menjadi “perencanaan multi langkah,” sehingga kecepatan respons hampir dua kali lipat. Optimalisasi stabilitas seperti pengaturan perhatian yang dikendalikan oleh tim Tongyi, yang memenangkan penghargaan makalah terbaik di NeurIPS, memberikan jaminan sistematis untuk inovasi radikal ini, memastikan pelatihan skala besar berjalan stabil. Keempat teknologi ini bersama-sama mengarah ke satu tujuan: menggunakan lebih sedikit daya komputasi untuk mengaktifkan kecerdasan yang lebih kuat.

Aplikasi Qwen3.5 dan versi PC telah langsung terintegrasi dengan model Qwen3.5-Plus. Pengembang dapat mengunduh model baru di komunitas Moda dan HuggingFace, atau langsung mendapatkan layanan API melalui Alibaba Cloud Bailing.

Performa setara Gemini 3 Pro, dengan nilai harga yang sangat kompetitif

Menurut Alibaba, model besar generasi baru Qwen3.5-Plus dari Alibaba terbuka, performanya setara Gemini 3 Pro, dan menduduki posisi tertinggi sebagai model open source terkuat di dunia. Qwen3.5 mewujudkan inovasi menyeluruh dalam arsitektur model dasar, dengan versi Qwen3.5-Plus yang dirilis memiliki total parameter 3970 miliar, dengan aktivasi hanya 170 miliar, mengungguli model Qwen3-Max yang memiliki triliunan parameter, dengan penggunaan memori deploy yang turun 60%, serta peningkatan efisiensi penalaran secara signifikan, dengan throughput maksimum hingga 19 kali lipat.

Dari segi harga, API Qwen3.5-Plus hanya 0,8 yuan per juta token, hanya 1/18 dari Gemini 3 Pro.

Empat terobosan teknologi utama: dari inovasi arsitektur hingga stabilitas sistem

Terobosan teknologi utama Qwen3.5 terletak pada empat inovasi. Pertama adalah mekanisme perhatian campuran, yang membuat model belajar “membaca secara detail dan ringkas”. Dalam penanganan teks panjang, model besar tradisional harus melakukan perhatian penuh terhadap semua token dalam konteks, yang semakin besar teks, semakin besar pula konsumsi daya komputasi, menjadi hambatan utama kemampuan konteks panjang. Qwen3.5 melalui alokasi perhatian dinamis, membaca secara mendalam informasi penting dan secara ringkas informasi sekunder, meningkatkan efisiensi dan akurasi secara bersamaan.

Kedua adalah arsitektur MoE yang sangat jarang. Model padat tradisional harus mengaktifkan seluruh parameter saat inferensi, semakin banyak parameter, semakin tinggi biaya komputasi. Inovasi arsitektur MoE adalah mengaktifkan hanya sub jaringan “ahli” yang paling relevan sesuai input. Qwen3.5 membawa ide ini ke tingkat ekstrem—dengan total 3970 miliar parameter dan hanya mengaktifkan 170 miliar, menggunakan kurang dari 5% daya untuk mengaktifkan seluruh pengetahuan, secara drastis menurunkan biaya inferensi.

Ketiga adalah kemampuan prediksi multi-token asli. Model tradisional menghasilkan token satu per satu, sehingga efisiensi inferensi terbatas. Qwen3.5 sejak pelatihan sudah mampu melakukan prediksi bersamaan untuk beberapa posisi berikutnya, sehingga kecepatan inferensi hampir dua kali lipat. Kemampuan “perencanaan multi langkah” ini sangat bermanfaat dalam pembuatan teks panjang, pelengkapan kode, dialog multi putaran, dan skenario lain yang membutuhkan respons cepat “seconder”. **

Terakhir adalah optimisasi stabilitas pelatihan tingkat sistem, memastikan inovasi arsitektur ini benar-benar “stabil” saat pelatihan skala besar. Sebagai contoh, mekanisme pengendalian perhatian yang memenangkan penghargaan NeurIPS 2025 dari tim Tongyi, menambahkan “saklar pintar” di output layer perhatian, yang secara cerdas mengatur aliran informasi seperti keran air—mencegah informasi penting terbenam dan menghindari informasi tidak relevan terlalu diperbesar, meningkatkan akurasi output dan kemampuan generalisasi konteks panjang. Selain itu, strategi normalisasi dan inisialisasi routing ahli yang dioptimalkan secara mendalam juga menyelesaikan berbagai masalah stabilitas, menjamin model berjalan stabil dalam pelatihan skala besar.

Dari “respons” ke “operasi”: paradigma interaksi manusia-mesin yang baru

Berbeda dari chatbot tradisional, Qwen3.5 tidak lagi hanya memenuhi fungsi respons. Dengan kemampuan agen visualnya, model dapat “melihat” layar ponsel dan komputer secara seperti manusia, memahami posisi dan fungsi elemen antarmuka secara akurat, dan secara mandiri melakukan operasi. Dalam demonstrasi resmi, pengguna cukup memberi instruksi dalam bahasa alami, model dapat menyelesaikan tugas lintas aplikasi di perangkat mobile, atau mengelola data dan otomatisasi proses multi langkah di PC, membawa kolaborasi manusia-mesin ke dimensi baru.

Kemampuan ini berakar pada teknologi pemahaman visual yang canggih. Qwen3.5 mampu menentukan posisi elemen layar secara tepat, mengenali tombol, kotak teks, ikon, serta atribut fungsi, kemudian meniru klik, geser, input, dan lain-lain. Melalui encoding visual dan analisis semantik terhadap isi layar, AI benar-benar memiliki kemampuan “visual” dan “tangan” untuk berinteraksi dengan dunia digital. Pengguna dapat memilih deployment lokal atau cloud, menyeimbangkan efisiensi komputasi dan kontrol data secara fleksibel.

Kerjasama lintas aplikasi juga menjadi terobosan lain dari Qwen3.5. Dalam demonstrasi, model mampu mengekstrak informasi dari email, membaca data dari tabel, dan mengirim melalui aplikasi komunikasi, menghubungkan data antar aplikasi yang sebelumnya terisolasi, dan mewujudkan otomatisasi proses multi langkah. Mekanisme isolasi aplikasi tradisional tidak lagi menjadi hambatan di hadapan agen cerdas ini, karena ia bertindak sebagai “agen pengguna” yang sah dan efisien, berkolaborasi dengan berbagai aplikasi, menciptakan pengalaman digital yang mulus. Evolusi dari alat tunggal menjadi asisten digital serba bisa ini membuka ruang imajinasi baru untuk kolaborasi manusia-mesin.

6 menit 48 detik, dari sketsa hingga kode: seberapa kuat kemampuan “membaca pikiran” Qwen3.5?

Lebih menakjubkan lagi, kemampuan pemrograman visual yang ditunjukkan Qwen3.5. Dalam sebuah video demonstrasi, pengguna hanya menunjuk sketsa antarmuka web, dan model dalam 6 menit 48 detik mampu mengubahnya menjadi kode web yang terstruktur, dapat langsung dijalankan, bahkan secara otomatis mencocokkan gambar berkualitas tinggi. Kemampuan “dari sketsa ke produk” ini menunjukkan pemahaman mendalam terhadap informasi visual, mampu mengenali bentuk lingkaran sebagai tombol, garis sebagai pemisah tata letak, serta menafsirkan maksud desain, memahami “ini adalah bilah navigasi” dan “itu adalah area konten,” lalu memadukan logika HTML, CSS, dan JavaScript yang sesuai.

Mendalami detail teknis, kemampuan ini berasal dari arsitektur multimodal asli Qwen3.5. Berbeda dari pendekatan sebelumnya yang menggabungkan encoder visual + model bahasa secara sederhana, Qwen3.5 melakukan integrasi mendalam antara teks dan visual sejak tahap pra-pelatihan, memungkinkan model memahami informasi posisi pixel dan konsep abstrak secara bersamaan. Data menunjukkan bahwa jendela konteksnya diperluas hingga 1 juta token, mampu memproses konten video selama dua jam secara langsung, artinya dapat menonton satu film lengkap dan merangkum plot, karakter, gaya visual dalam dokumen atau kode. Kemampuan memori multimodal ini jauh melampaui kapasitas manusia dalam satu kali proses informasi.

Peringatan risiko dan ketentuan penafian

Pasar memiliki risiko, investasi harus dilakukan dengan hati-hati. Artikel ini tidak merupakan saran investasi pribadi, dan tidak mempertimbangkan tujuan investasi, kondisi keuangan, atau kebutuhan khusus pengguna. Pengguna harus menilai apakah pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan kondisi mereka. Investasi berdasarkan hal tersebut menjadi tanggung jawab sendiri.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan