DeepSeek, sebuah startup AI yang berbasis di Hangzhou, Tiongkok, telah menarik perhatian signifikan di industri AI global dengan peluncuran model bahasa besar DeepSeek-V3 pada akhir Desember 2024. Model ini memiliki 671 miliar parameter tetapi hanya memerlukan sekitar dua bulan untuk dilatih dengan biaya 5,58 juta USD, jauh lebih rendah dari investasi perusahaan teknologi besar lainnya. DeepSeek-V3 mencapai performa terbaik di antara model open-source dan dibandingkan dengan model tercanggih di dunia. Perusahaan telah mengoptimalkan proses pelatihan untuk meminimalkan biaya, menggunakan sekitar 2,78 juta jam GPU dengan GPU H800 Nvidia yang diproduksi di China. Hal ini menunjukkan bahwa perusahaan AI China telah membuat kemajuan signifikan meskipun dibatasi oleh AS dalam mengakses semikonduktor canggih yang dibutuhkan untuk pelatihan AI. Keberhasilan DeepSeek telah menimbulkan kekhawatiran dalam industri teknologi AS, dengan saham Nvidia dan perusahaan teknologi lainnya merosot. Para ahli percaya bahwa DeepSeek telah mencapai kinerja tinggi dengan biaya yang jauh lebih rendah daripada pesaingnya di AS, berkat penggunaan teknologi sumber terbuka dan metode pelatihan yang efektif. Selain itu, DeepSeek telah merilis kode sumber dan penjelasan teknis terperinci tentang model tersebut, memungkinkan para peneliti dan pengembang di seluruh dunia untuk mengakses dan meningkatkan teknologi ini. Transparansi ini berbeda dengan pendekatan yang lebih rahasia dari perusahaan kecerdasan buatan terkemuka di AS dan mungkin akan mengubah cara perusahaan teknologi besar mengembangkan model di masa depan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
#Deepseek Goes Viral#
DeepSeek, sebuah startup AI yang berbasis di Hangzhou, Tiongkok, telah menarik perhatian signifikan di industri AI global dengan peluncuran model bahasa besar DeepSeek-V3 pada akhir Desember 2024. Model ini memiliki 671 miliar parameter tetapi hanya memerlukan sekitar dua bulan untuk dilatih dengan biaya 5,58 juta USD, jauh lebih rendah dari investasi perusahaan teknologi besar lainnya.
DeepSeek-V3 mencapai performa terbaik di antara model open-source dan dibandingkan dengan model tercanggih di dunia. Perusahaan telah mengoptimalkan proses pelatihan untuk meminimalkan biaya, menggunakan sekitar 2,78 juta jam GPU dengan GPU H800 Nvidia yang diproduksi di China. Hal ini menunjukkan bahwa perusahaan AI China telah membuat kemajuan signifikan meskipun dibatasi oleh AS dalam mengakses semikonduktor canggih yang dibutuhkan untuk pelatihan AI.
Keberhasilan DeepSeek telah menimbulkan kekhawatiran dalam industri teknologi AS, dengan saham Nvidia dan perusahaan teknologi lainnya merosot. Para ahli percaya bahwa DeepSeek telah mencapai kinerja tinggi dengan biaya yang jauh lebih rendah daripada pesaingnya di AS, berkat penggunaan teknologi sumber terbuka dan metode pelatihan yang efektif.
Selain itu, DeepSeek telah merilis kode sumber dan penjelasan teknis terperinci tentang model tersebut, memungkinkan para peneliti dan pengembang di seluruh dunia untuk mengakses dan meningkatkan teknologi ini. Transparansi ini berbeda dengan pendekatan yang lebih rahasia dari perusahaan kecerdasan buatan terkemuka di AS dan mungkin akan mengubah cara perusahaan teknologi besar mengembangkan model di masa depan.