Zhipu Rilis API Kecepatan Tinggi GLM-5.1, Mencatat Rekor Kecepatan Global di 400 Token/detik

Menurut pemantauan oleh Dongcha Beating, Zhipu telah meluncurkan API kecepatan tinggi GLM-5.1 untuk klien perusahaan terpilih, mencapai kecepatan output model sebesar 400 token/detik, menetapkan rekor global baru untuk batas kecepatan ujung ke ujung antarmuka resmi model besar. Versi kecepatan tinggi ini mempertahankan kemampuan dari model flagship asli sambil didukung oleh mesin inferensi berkinerja tinggi yang dikembangkan bersama oleh Zhipu dan tim TileRT. Mesin ini sepenuhnya merestrukturisasi mekanisme penjadwalan operasional GPU, secara statis mengatur model menjadi Kernel Mesin yang bersifat permanen yang berada di GPU selama fase kompilasi. Selama inferensi satu kartu, perhitungan, I/O asinkron, dan komunikasi semuanya dipecah menjadi mikro-tugas tingkat ubin, memulai kernel hanya sekali. Hasil sementara antara operator langsung ditransmisikan melalui register dan cache bersama, menghilangkan latensi yang disebabkan oleh seringnya memulai kernel dan pembacaan/tulisan memori dalam inferensi tradisional. Ketika diskalakan ke pengaturan multi-kartu, TileRT lebih jauh memperluas pendekatan paralelisme spesialisasi di seluruh topologi NVL 8-kartu, mengubah node GPU homogen asli menjadi Pekerja heterogen yang bertanggung jawab atas tugas yang berbeda. Dalam menangani perhitungan lapisan perhatian dari GLM-5.1, sistem menetapkan GPU 0 untuk menjalankan Pekerja indeks jarang yang didedikasikan untuk konstruksi indeks jarang dan pengambilan keputusan routing, sementara GPU 1 hingga 7 menjalankan Pekerja MLA yang bertanggung jawab atas fase yang memerlukan perhitungan intensif, mengintegrasikan komunikasi sepenuhnya ke dalam pipeline tugas tingkat ubin, mencapai tumpang tindih mendalam antara perhitungan dan komunikasi antar-kartu. Layanan kecepatan tinggi ini saat ini tersedia untuk klien perusahaan terpilih di platform Zhipu MaaS. Di masa depan, teknologi ini akan lebih mengoptimalkan inferensi FP8 dan lingkungan produksi konteks ultra-panjang, memberikan dukungan kinerja yang lebih deterministik untuk skenario sensitif terhadap latensi rendah seperti pemrograman AI, interaksi waktu nyata, dan suara waktu nyata.
ZHIPU8,51%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan