Microsoft mengembangkan "tiga perangkat" AI sendiri, dengan percaya diri menyatakan bahwa mereka akan membangun model canggih besar secara mandiri pada tahun 2027

CryptocurrencySniper · 2026-04-03T18:42:47+00:00

Microsoft meluncurkan tiga model AI yang dikembangkan sendiri yaitu MAI-Transcribe-1, MAI-Voice-1, dan MAI-Image-2, menunjukkan upaya mereka untuk melepaskan ketergantungan pada OpenAI, mencakup transkripsi suara, generasi, dan pembuatan gambar. Perusahaan menargetkan pengembangan model terdepan pada tahun 2027 dan memperkuat penyebaran daya komputasi untuk mendukung perkembangan di masa depan.

CryptocurrencySniper

2026-04-03 18:42:47

Pembuatan abstrak sedang berlangsung

Perusahaan teknologi Amerika, Microsoft, pada hari Kamis mengumumkan bahwa 3 model AI yang dikembangkan secara internal kini resmi diluncurkan untuk penggunaan komersial secara luas, menampilkan upaya perusahaan itu untuk melepaskan ketergantungan pada mitra jangka panjangnya, OpenAI.

Secara spesifik, tiga model—MAI-Transcribe-1, MAI-Voice-1, dan MAI-Image-2—yang dikembangkan oleh tim AI Superintelligent Microsoft, mencakup 3 kapabilitas paling bernilai komersial dalam AI perusahaan: konversi teks-ke-ucapan? (transkripsi suara), pembangkitan suara, dan pembuatan gambar.

（Pembaruan ini diumumkan oleh CEO Microsoft Nadella, sumber: X）

Microsoft menyatakan bahwa MAI-Transcribe-1 memiliki akurasi tertinggi di antara model transkripsi yang paling umum digunakan di pasaran. Dalam pengujian yang mencakup semua bahasa, tingkat kesalahan rata-ratanya adalah 3.9%. Sementara tingkat kesalahan GPT-Transcribe milik OpenAI adalah 4.2%, dan Gemini 3.1 Flash adalah 4.9%.

Model pembangkitan suara MAI-Voice-1, menurut klaim, dapat menghasilkan audio 60 detik dalam waktu kurang dari satu detik pada “satu GPU” saja, serta dapat mempertahankan konsistensi suara saat menghasilkan konten berdurasi panjang.

MAI-Image-2 pertama kali dirilis pada 19 Maret, dan pada hari Kamis juga menyusul kedua model lainnya untuk peluncuran penggunaan komersial secara luas. Saat ini, model tersebut berada di peringkat ketiga dalam kompetisi gambar berbasis teks di “Large Model Arena”, hanya di bawah produk andalan Nano Banana 2 milik Google dan GPT-Image 1.5 milik OpenAI.

Dari perbandingan harga secara horizontal, harga awal input teks MAI-Image-2 adalah 5 dolar AS untuk setiap 1 juta token, sedangkan keluaran gambar adalah mulai dari 33 dolar AS untuk setiap 1 juta token. Model pembuatan gambar Gemini 3 Pro milik Google berharga 120 dolar AS untuk setiap 1 juta token, sedangkan Gemini 3.1 Flash berharga 60 dolar AS untuk setiap 1 juta token.

Tujuan: mengembangkan sendiri model skala besar paling mutakhir di dunia

Langkah terbaru Microsoft ini berawal dari Oktober tahun lalu, ketika perusahaan tersebut menata ulang kerja sama dengan OpenAI, yang memberi Microsoft hak untuk mengejar general AI secara mandiri atau bersama mitra pihak ketiga. Perjanjian sebelumnya memang memungkinkan Microsoft menggunakan kekayaan intelektual OpenAI, tetapi sekaligus melarangnya mengembangkan sistem AI kompetitif.

CEO AI Microsoft, Mustafa Suleyman, secara terbuka menyatakan bahwa target tim tersebut pada tahun 2027 adalah “benar-benar mencapai level paling mutakhir”, mencakup model yang mampu merespons atau menghasilkan teks, gambar, dan audio.

Suleyman menjelaskan bahwa perusahaan sedang membangun kapasitas komputasi yang dibutuhkan untuk melatih model, dan sejak Oktober tahun lalu mulai men-deploy chip Nvidia GB200.

Ia mengatakan: “Sejak saat itu, kami akan meningkatkan secara bertahap dalam kira-kira 12 hingga 18 bulan ke depan, untuk mencapai kemampuan komputasi pada skala terdepan.”

Sebagai salah satu pendiri Google DeepMind, Suleyman bergabung dengan Microsoft pada 2024 untuk bertanggung jawab mengintegrasikan AI ke dalam produk konsumennya. Setelah Microsoft dan OpenAI menyepakati kesepakatan pada Oktober tahun lalu, Suleyman pada bulan November tahun lalu mengambil alih penuh peran untuk memimpin tim AI Superintelligent Microsoft. Dalam restrukturisasi internal pada bulan lalu, tanggung jawab Suleyman dipersempit menjadi pengembangan model; mantan eksekutif Snap, Jacob Andriote, mengambil alih produk asisten Copilot Microsoft yang ditujukan untuk pengguna perusahaan dan individu.

Dalam pernyataan kepada media, Suleyman mengatakan: “Kami ingin menekankan bahwa pentingnya mendorong kemampuan AI paling mutakhir kami sendiri dalam tiga hingga lima tahun ke depan, dan mewujudkan misi strategis kemandirian jangka panjang.” Ia juga menambahkan bahwa perusahaan akan terus meng-host model yang dikembangkan oleh perusahaan lain.

Dari sudut pandang jangka panjang, akses mendalam Microsoft ke kekayaan intelektual OpenAI akan berakhir pada 2032, sehingga pengembangan model skala besar yang dikembangkan sendiri juga merupakan langkah penting untuk mengimbangi risiko.

Bisnis model yang dikembangkan sendiri Microsoft yang baru dimulai pun masih memiliki banyak kekurangan, yang menunjukkan bahwa tim Suleyman tahun depan akan memiliki banyak pekerjaan yang harus diselesaikan.

Sebagai contoh, MAI-Image-2 saat ini hanya mendukung rasio aspek 1:1, tidak menyediakan opsi horizontal atau vertikal; dukungan pengeditan gambar dari gambar dan dukungan gambar referensi yang umum ditemukan di aplikasi AI lainnya juga tidak tersedia. MAI-Transcribe-1 tidak dapat membedakan pembicara yang berbeda dalam percakapan, dan juga tidak mendukung bias konteks serta transmisi streaming; Microsoft menyatakan ketiga fitur tersebut sedang dalam pengembangan.

（Sumber: Caixin Global）

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.