Tongyi memasukkan Vibe Coding ke dalam multimodal, Qwen3.5-Omni diklaim meraih 215 SOTA

robot
Pembuatan abstrak sedang berlangsung

Berdasarkan pemantauan 1M AI News, Laboratorium Tongyi merilis model multimodal penuh Qwen3.5-Omni, yang mendukung input teks, gambar, audio, dan audio-video, serta dapat menghasilkan Caption audio-video berbutir halus dengan stempel waktu. Resmi menyebutkan bahwa Qwen3.5-Omni-Plus meraih 215 SOTA dalam tugas seperti analisis audio dan audio-video, penalaran, percakapan, penerjemahan, dan lainnya, dan kemampuan terkaitnya melampaui Gemini-3.1-Pro.

Kali ini, peningkatan yang paling istimewa bukanlah peringkat, melainkan “kemampuan Audio-Visual Vibe Coding yang muncul secara alami”. Tongyi menyatakan bahwa model ini tidak menjalani pelatihan khusus, namun sudah bisa menghasilkan kode yang dapat dijalankan langsung berdasarkan instruksi audio-video. Pihak resmi juga menyatakan bahwa model ini mendukung konteks 256K, pengenalan 113 bahasa, mampu memproses audio 10 jam atau video 1 jam, serta secara native mendukung WebSearch dan Function Call yang kompleks.

Qwen3.5-Omni melanjutkan arsitektur pembagian tugas Thinker-Talker, dengan kedua bagiannya sama-sama ditingkatkan menjadi Hybrid-Attention MoE. Tongyi telah menyediakan tiga ukuran Plus, Flash, dan Light melalui Alibaba Cloud Bailian, serta meluncurkan versi real-time Qwen3.5-Omni-Plus-Realtime.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan