Seberapa baik melatih model besar dengan FP8? Microsoft: 64% lebih cepat dan memori 42% lebih sedikit daripada BF16

Question

Sumber asli: Heart of the Machine![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b21c4b66cc-dd1a6f-cd5cc0) Sumber gambar: Dihasilkan oleh Unbounded AI> Pelatihan presisi rendah adalah salah satu teknologi utama untuk menskalakan ukuran model dan menghemat biaya pelatihan dalam pelatihan model besar. Dibandingkan dengan pelatihan presisi campuran floating-point 16-bit dan 32-bit saat ini, menggunakan pelatihan presisi campuran floating-point 8-bit FP8 dapat menghadirkan kecepatan 2x lebih cepat, menghemat 50% - 75% memori video dan 50% - 75% biaya komunikasi, dan generasi terbaru NVIDIA Kawang H100 hadir dengan dukungan perangkat keras FP8 yang baik. Namun, dukungan untuk pelatihan FP8 masih sangat terbatas dalam kerangka pelatihan model besar industri. Baru-baru ini, Microsoft mengusulkan FP8-LM, kerangka kerja presisi campuran FP8 untuk melatih LLM, untuk menerapkan FP8 ke komputasi, penyimpanan, dan komunikasi pelatihan model besar sebanyak mungkin, menggunakan H100 untuk melatih GPT-175B 64% lebih cepat dari BF16 dan menghemat 42% penggunaan memori. Terlebih lagi: ini open-source.    Model bahasa besar (LLM) memiliki pemahaman bahasa dan kemampuan generasi yang belum pernah terjadi sebelumnya, tetapi membuka kemampuan canggih ini membutuhkan ukuran model yang besar dan pelatihan intensif komputasi. Dalam konteks ini, dan terutama ketika kita melihat penskalaan ke skala model Super Intelligence yang diusulkan OpenAI, pelatihan presisi rendah adalah salah satu teknik yang paling efektif dan kritis, dengan keunggulan seperti jejak memori kecil, kecepatan pelatihan cepat, dan overhead komunikasi rendah. Sebagian besar kerangka kerja pelatihan saat ini, seperti Megatron-LM, MetaSeq, dan Colossal-AI, menggunakan presisi penuh FP32 atau presisi campuran FP16/BF16 secara default untuk melatih LLM. Tapi itu masih belum mendorong amplop: dengan dirilisnya GPU NVIDIA H100, FP8 menjadi tipe data generasi berikutnya untuk karakterisasi presisi rendah. Secara teoritis, FP8 dapat memberikan peningkatan kecepatan 2x dibandingkan dengan pelatihan presisi campuran floating-point FP16/BF16 saat ini, menghemat 50% hingga 75% biaya memori dan 50% hingga 75% biaya komunikasi. Meskipun demikian, dukungan untuk pelatihan FP8 saat ini terbatas. Transformer Engine (TE) NVIDIA, yang menggunakan FP8 hanya untuk perhitungan GEMM, memberikan penghematan biaya akselerasi, memori, dan komunikasi end-to-end yang terbatas. Tapi sekarang kerangka kerja presisi campuran FP8-LM FP8 open-source Microsoft memecahkan masalah ini secara dramatis: kerangka kerja FP8-LM sangat dioptimalkan untuk menggunakan format FP8 selama pelatihan maju dan mundur, sangat mengurangi overhead komputasi, memori, dan komunikasi sistem. ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f66152dd91-dd1a6f-cd5cc0) *Alamat:* Open Source Framework:Hasil eksperimen menunjukkan bahwa ketika melatih model GPT-175B pada platform GPU H100, kerangka pelatihan presisi campuran FP8-LM tidak hanya mengurangi jejak memori aktual sebesar 42%, tetapi juga berjalan 64% lebih cepat daripada kerangka kerja BF16 yang diadopsi secara luas (yaitu, Megatron-LM) dan 17% lebih cepat daripada Nvidia Transformer Engine. Selain itu, pada pra-pelatihan dan beberapa tugas hilir, kerangka kerja pelatihan FP8-LM dapat digunakan untuk mendapatkan model dengan hasil yang serupa dengan kerangka kerja presisi campuran BF16 standar saat ini. Mengingat sumber daya komputasi, menggunakan kerangka kerja FP8-LM dapat dengan mudah meningkatkan ukuran model yang dapat dilatih hingga 2,5x. Beberapa pengembang telah membahas di Twitter bahwa jika GPT-5 dilatih dengan FP8, bahkan jika hanya jumlah H100 yang sama yang digunakan, ukuran modelnya akan menjadi 2,5 kali lipat dari GPT-4! ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59bbc69755-dd1a6f-cd5cc0) Insinyur R&D Huggingface menyindir, "Itu keren, dengan teknologi pelatihan massal FP8, Anda dapat mencapai kecurangan komputasi!"![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b65a006fda-dd1a6f-cd5cc0) Kontribusi Utama FP8-LM: * Kerangka kerja pelatihan presisi campuran FP8 baru. Mudah digunakan dengan cara aditif yang secara bertahap membuka bobot 8-bit, gradien, pengoptimal, dan pelatihan terdistribusi. Kerangka kerja 8-bit ini adalah pengganti sederhana dan mudah untuk bagian yang sesuai dari metode presisi campuran 16/32-bit yang ada tanpa modifikasi apa pun pada hyperparameter dan metode pelatihan. Selain itu, tim Microsoft telah merilis implementasi PyTorch yang memungkinkan pengguna untuk menerapkan pelatihan presisi rendah 8-bit dengan sejumlah kecil kode.* Keluarga model bergaya GPT yang dilatih dengan FP8. Mereka menggunakan skema FP8 yang baru diusulkan untuk melakukan pra-pelatihan GPT dan penyempurnaan, termasuk SFT dan RLHF, dan hasilnya menunjukkan bahwa metode baru ini memiliki potensi untuk model dari semua ukuran mulai dari 7 miliar hingga 175 miliar parameter. Mereka memiliki dukungan FP8 untuk paradigma komputasi paralel umum, termasuk tensor, alur, dan paralelisasi urutan, memungkinkan pengguna menggunakan FP8 untuk melatih model dasar besar. Mereka juga merilis basis kode pelatihan GPT FP8 pertama berdasarkan Megatron-LM secara open-source.Implementasi FP8-LM Secara khusus, mereka merancang tiga tingkat pengoptimalan untuk tujuan menggunakan FP8 guna menyederhanakan pelatihan presisi campuran dan terdistribusi. Ketiga level ini secara bertahap dapat mengintegrasikan pengoptimal komunikasi kolektif 8-bit dan pelatihan paralel terdistribusi secara progresif. Semakin tinggi tingkat optimasi, semakin banyak FP8 yang digunakan dalam pelatihan LLM. Selain itu, untuk pelatihan skala besar (misalnya, GPT-175B pada ribuan GPU), kerangka kerja ini menyediakan paralelisasi digit rendah dengan presisi FP8, termasuk tensor, alur pelatihan, dan pelatihan, membuka jalan menuju generasi berikutnya dari pelatihan paralel presisi rendah. Paralelisasi tensor adalah dispersi lapisan model di beberapa perangkat, menempatkan pecahan bobot, gradien, dan tensor aktivasi pada GPU yang berbeda. Untuk mendukung FP8 untuk paralelisasi tensor, tim Microsoft mengubah bobot dan tensor aktivasi pecahan menjadi format FP8 untuk komputasi lapisan linier, sehingga FP8 digunakan untuk komputasi maju dan komunikasi kolektif gradien mundur. Paralelisasi urutan, di sisi lain, adalah untuk mengiris urutan input menjadi beberapa bagian, dan kemudian memberi makan urutan ke perangkat yang berbeda untuk menghemat memori aktivasi. Seperti yang ditunjukkan pada Gambar 2, paralelisasi urutan dan paralelisasi tensor sedang dilakukan di berbagai bagian model Transformer untuk memanfaatkan sepenuhnya memori yang tersedia dan meningkatkan efisiensi pelatihan. ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-14749199b6-dd1a6f-cd5cc0) Dalam kasus ZeRO (Zero Redundancy Optimizer), FP8 tidak dapat diterapkan secara langsung karena sulit untuk menangani faktor penskalaan yang terkait dengan partisi FP8. Oleh karena itu, faktor penskalaan untuk setiap tensor harus didistribusikan di sepanjang jalan FP8 dibagi. Untuk mengatasi masalah ini, para peneliti menerapkan skema alokasi FP8 baru yang menyebarkan setiap tensor secara keseluruhan di beberapa perangkat, daripada membaginya menjadi beberapa subtensor seperti dalam pendekatan ZeRO. Metode ini menangani alokasi tensor FP8 dengan cara serakah, seperti yang ditunjukkan pada Algoritma 1. ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a8616fdf20-dd1a6f-cd5cc0) Secara khusus, metode ini pertama-tama mengurutkan tensor status model berdasarkan ukuran, lalu mengalokasikan tensor ke GPU yang berbeda berdasarkan jumlah memori yang tersisa untuk setiap GPU. Alokasi ini mengikuti prinsip bahwa GPU dengan lebih banyak memori yang tersisa lebih mungkin untuk menerima tensor yang baru dialokasikan. Dengan cara ini, faktor penskalaan tensor dapat ditetapkan dengan lancar di sepanjang tensor sekaligus mengurangi kompleksitas komunikasi dan komputasi. Gambar 3 mengilustrasikan perbedaan antara bagaimana tensor ZeRO dibagi dengan dan tanpa faktor penskalaan. ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0b9395a80c-dd1a6f-cd5cc0) Melatih LLM dengan FP8 tidaklah mudah. Ada banyak masalah menantang yang terlibat, seperti data underflow atau overflow; Ada juga kesalahan kuantisasi karena rentang dinamis yang sempit dan degradasi akurasi yang melekat dalam format data FP8. Tantangan-tantangan ini dapat menyebabkan ketidakstabilan numerik dan divergensi ireversibel dalam proses pelatihan. Untuk mengatasi masalah ini, Microsoft telah mengusulkan dua teknologi: pemisahan presisi dan penskalaan otomatis, untuk mencegah hilangnya informasi penting. **Decoupling Presisi** Decoupling presisi melibatkan pemisahan pengaruh akurasi data pada parameter seperti bobot, gradien, dan status pengoptimal, dan menetapkan presisi yang dikurangi ke komponen yang tidak sensitif terhadap akurasi. Untuk pemisahan presisi, tim mengatakan mereka menemukan prinsip panduan: statistik gradien dapat menggunakan presisi yang lebih rendah, sementara bobot berdaulat membutuhkan akurasi tinggi. Lebih khusus lagi, momen gradien orde pertama dapat mentolerir kesalahan kuantisasi yang lebih tinggi dan dapat dilengkapi dengan FP8 presisi rendah, sedangkan momen orde kedua membutuhkan akurasi yang lebih tinggi. Ini karena saat menggunakan Adam, arah gradien lebih penting daripada amplitudonya selama pembaruan model. FP8 dengan kemampuan penskalaan tensor dapat secara efektif mempertahankan distribusi momen orde pertama sebagai tensor presisi tinggi, meskipun juga menghasilkan beberapa penurunan akurasi. Karena nilai gradien biasanya kecil, menghitung kuadrat gradien untuk momen gradien orde kedua dapat menyebabkan masalah luapan data. Oleh karena itu, untuk menjaga akurasi numerik, perlu untuk menetapkan presisi 16-bit yang lebih tinggi. Di sisi lain, mereka juga menemukan bahwa penggunaan presisi tinggi untuk menjaga bobot kedaulatan juga penting. Alasan mendasarnya adalah bahwa selama pelatihan, pembaruan berat badan kadang-kadang bisa menjadi sangat besar atau sangat kecil, dan untuk bobot berdaulat, akurasi yang lebih tinggi membantu mencegah informasi hilang ketika bobot diperbarui, memungkinkan pelatihan yang lebih stabil dan akurat. Dalam implementasi ini, ada dua opsi yang layak untuk kelas berat berdaulat: gunakan FP32 presisi penuh atau gunakan FP16 dengan penskalaan tensor. Keuntungan FP16 dengan penskalaan tensor adalah menghemat memori tanpa mengorbankan akurasi. Oleh karena itu, pilihan default untuk kerangka kerja baru adalah menggunakan FP16 dengan penskalaan tensor untuk menyimpan bobot berdaulat di pengoptimal. Dalam pelatihan, untuk pengoptimal presisi campuran FP8, memori 6 byte diperlukan untuk setiap parameter: ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b4e9b4336-dd1a6f-cd5cc0) Pengoptimal digit rendah baru ini mengurangi jejak memori dengan faktor 2,6 dibandingkan dengan solusi sebelumnya. Perlu dijelaskan: ini adalah pengoptimal FP8 pertama untuk pelatihan LLM. Eksperimen telah menunjukkan bahwa pengoptimal FP8 mempertahankan akurasi model pada berbagai ukuran model mulai dari 125 juta hingga 175 miliar parameter. **Penskalaan otomatis** Autoscaling adalah untuk menyimpan nilai gradien ke rentang representasi format data FP8, yang memerlukan penyesuaian dinamis dari faktor penskalaan tensor, yang dapat mengurangi aliran bawah dan luapan data selama komunikasi yang semuanya berkurang. Secara khusus, para peneliti memperkenalkan faktor autoscaling μ yang dapat berubah tergantung pada situasi selama pelatihan. **Hasil Eksperimental**Untuk memvalidasi kerangka kerja presisi rendah FP8 yang baru diusulkan, para peneliti bereksperimen dengan menggunakannya untuk melatih model gaya GPT, termasuk pra-pelatihan dan penyesuaian yang diawasi (SFT). Eksperimen ini dilakukan pada platform superkomputer NDv5 H100 terbaru untuk komputasi cloud Azure. Hasil eksperimen menunjukkan bahwa metode FP8 baru efektif: dibandingkan dengan metode pelatihan presisi campuran BF16 yang banyak digunakan sebelumnya, metode baru ini memiliki keunggulan yang jelas, termasuk pengurangan 27% -42% dalam penggunaan memori nyata (misalnya, penurunan 27% untuk model GPT-7B dan penurunan 42% untuk model GPT-175B); Overhead komunikasi gradien tertimbang telah turun 63% -65%. ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c49206f0f8-dd1a6f-cd5cc0) Tanpa memodifikasi hiperparameter apa pun seperti tingkat pembelajaran dan penurunan berat badan, performa model yang dilatih dengan FP8 sebanding dengan model yang dilatih dengan presisi BF16, terlepas dari apakah itu tugas yang dilatih sebelumnya atau tugas hilir. Perlu dicatat bahwa selama pelatihan model GPT-175B, kerangka kerja presisi campuran FP8 yang baru diusulkan dapat mengurangi waktu pelatihan sebesar 17% sekaligus mengurangi jejak memori sebesar 21% pada platform GPU H100 dibandingkan dengan metode TE. Terlebih lagi, karena ukuran model terus diskalakan, biaya lebih lanjut dapat dikurangi dengan menggunakan FP8 presisi rendah, seperti yang ditunjukkan pada Gambar 1. ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a1697e948e-dd1a6f-cd5cc0) Untuk fine-tuning, mereka menggunakan presisi campuran FP8 untuk instruksi fine-tuning dan pembelajaran penguatan menggunakan umpan balik manusia (RLHF) untuk lebih menyelaraskan LLM yang telah dilatih sebelumnya dengan tugas terminal dan preferensi pengguna. ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0b7e3cc91f-dd1a6f-cd5cc0) Ditemukan bahwa kinerja model yang menggunakan fine-tuning presisi campuran FP8 sebanding dengan model yang menggunakan fine-tuning BF16 setengah presisi pada benchmark Alpaca dan MT-Bench, sementara pelatihan dengan FP8 juga 27% lebih cepat. Selain itu, presisi campuran FP8 telah menunjukkan potensi besar untuk RLHF, sebuah proses yang membutuhkan beberapa model untuk dimuat selama pelatihan. Dengan menggunakan FP8 dalam pelatihan, AlpacaFarm, kerangka kerja RLHF yang populer, mampu mengurangi bobot model sebesar 46% dan konsumsi memori status pengoptimal sebesar 62%. Ini lebih lanjut menunjukkan fleksibilitas dan kemampuan beradaptasi dari kerangka kerja pelatihan presisi rendah FP8 yang baru diusulkan. Mereka juga melakukan percobaan ablasi untuk memverifikasi efektivitas masing-masing komponen. Dapat diperkirakan bahwa pelatihan presisi rendah FP8 akan menjadi infrastruktur baru untuk pengembangan model besar di masa depan.