DeepSeek meluncurkan mode pengenalan gambar, didukung oleh kerangka dasar penarikan kembali yang mendukung penalaran CoT visual

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, mode pengenalan gambar (Vision Mode) resmi diluncurkan di platform web dan aplikasi DeepSeek, yang disediakan berdampingan dengan mode cepat dan mode ahli di atas kotak input percakapan. Kemampuan pemahaman visual yang baru diluncurkan ini bukan sekadar pengenalan teks (OCR), melainkan fokus pada analisis skenario mendalam, penalaran logika ruang, serta mengubah tangkapan layar antarmuka pengguna langsung menjadi kode HTML terstruktur. Untuk deduksi geometri yang kompleks atau analisis grafik yang rumit, sistem secara otomatis mengaktifkan model pemikiran mendalam, menyediakan rantai penalaran lengkap.

Mode pengenalan gambar berbasis pada kerangka penelitian "Berpikir dengan Primitif Visual" yang diumumkan oleh tim DeepSeek. Peneliti multimodal Xiaokang Chen bersama Universitas Peking dan Universitas Tsinghua menerbitkan makalah yang menunjukkan bahwa model bahasa visual saat ini memiliki "Kekurangan Referensi" (Reference Gap) dalam penentuan posisi yang halus dan penalaran ruang, yaitu kesulitan dalam mendeskripsikan koordinat visual yang kompleks dengan bahasa alami yang kabur. Oleh karena itu, tim penelitian meningkatkan titik koordinat dan kotak pembatas (Bounding Boxes) sebagai unit pemikiran terkecil, dan langsung menyisipkan primitif ruang ke dalam rantai pemikiran (CoT) model untuk penalaran visual, memungkinkan penunjukan ruang dilakukan secara bersamaan selama proses berpikir.

Makalah akademik dan proyek sumber terbuka yang menjadi dasar kemampuan visual ini pernah dirilis secara singkat pada 30 April, tetapi segera ditarik kembali secara mendadak oleh pihak resmi DeepSeek pada 1 Mei, memicu spekulasi di industri mengenai kebocoran detail teknologi yang berlebihan dan optimisasi model di masa mendatang. Mode pengenalan gambar yang resmi diluncurkan hanya mendukung input gambar, sementara format multimodal seperti video dan audio belum didukung, dan model saat ini tidak memiliki kemampuan menghasilkan gambar.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan