Nghiên cứu phát hiện rằng trình tối ưu hóa mô hình đầu Muon khiến hơn một phần tư neuron của MLP chết vĩnh viễn trong giai đoạn đầu của quá trình huấn luyện, do việc bảo tồn tính trực giao gây ra tín hiệu yếu dẫn đến "người mạnh thắng người yếu". Aurora kết hợp hạn chế đồng đều cập nhật và tính trực giao theo song song, thông qua quá trình lặp xen kẽ để đồng thời đạt được cả hai, nâng cao hiệu quả học tập và độ ổn định rõ rệt. Aurora không cần điều chỉnh tham số có thể thay thế trực tiếp Muon; mô hình 1.1B chỉ dùng khoảng 100 tỷ token, đã gần như cân bằng với Qwen3-1.7B được huấn luyện với 36T token trên nhiều chuẩn đánh giá hiểu ngôn ngữ, và lợi thế càng rõ ràng khi MLP rộng hơn. Mã nguồn và mô hình tiền huấn luyện 1.1B đã được mở nguồn.

MarsBitNews

2026-05-10 05:11:34

Đang tạo bản tóm tắt

Theo theo dõi Beating Monitoring, Tilde Research phát hiện ra rằng bộ tối ưu Muon được sử dụng trong các mô hình hàng đầu như DeepSeek V4, Kimi K2.5, GLM-5 có một nhược điểm tiềm ẩn: nó khiến hơn một phần tư các neuron trong lớp MLP chết vĩnh viễn trong giai đoạn đầu của quá trình huấn luyện. Nhóm đã thiết kế bộ tối ưu thay thế là Aurora và mở mã nguồn. Một mô hình 1.1B chỉ dùng khoảng 100B token đã đạt điểm ngang bằng trên các chuẩn đánh giá hiểu ngôn ngữ như HellaSwag, Winogrande so với Qwen3-1.7B được huấn luyện với 36T token. Vấn đề nằm ở đặc tính toán học của Muon khi xử lý ma trận trọng số MLP. Trong giai đoạn đầu của huấn luyện, một số neuron tình cờ nhận được tín hiệu gradient yếu hơn. Các bộ tối ưu truyền thống như AdamW sẽ chuẩn hóa theo từng tham số, tự nhiên làm phẳng sự khác biệt này; nhưng bước chính xác của Muon sẽ truyền nguyên vẹn tín hiệu yếu này đi xuống. Các neuron yếu liên tục nhận được cập nhật yếu, ngày càng im lặng, tạo thành vòng lặp chết “người mạnh thắng người yếu”. Đến bước huấn luyện thứ 500, đã có hơn một phần tư neuron thực chất chết, lãng phí dung lượng tham số. Phiên bản cải tiến trước đó là NorMuon đã cố gắng giảm thiểu bằng cách bắt buộc làm phẳng độ lớn cập nhật của từng hàng, nhưng đổi lại làm phá vỡ tính chất trực giao của ma trận cập nhật (việc trực giao giúp mỗi bước cập nhật đạt hiệu quả cao nhất, là lợi thế cốt lõi của Muon), dẫn đến mất độ chính xác tối ưu. Aurora kết hợp “cập nhật đều” và “tính trực giao” thành các ràng buộc phối hợp, sử dụng phương pháp lặp xen kẽ để đồng thời thỏa mãn cả hai: vừa đảm bảo mỗi neuron đều có cơ hội học tập công bằng, vừa không hy sinh độ chính xác của cập nhật. Aurora chưa tinh chỉnh tham số chỉ tiêu tiêu tốn ít hơn Muon 6% tính toán, có thể thay thế trực tiếp. Trong các thử nghiệm tối ưu trên modded-nanoGPT, Aurora đã phá vỡ kỷ lục hiện tại sau 3175 bước. Ưu điểm của Aurora còn tăng lên khi độ rộng của MLP lớn hơn, hệ số mở rộng càng cao, cải thiện càng rõ rệt. Mã nguồn và mô hình tiền huấn luyện 1.1B đã được mở.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.06M Phổ biến
#
BTCBackAbove80K
59.45M Phổ biến
#
IsraelStrikesIranBTCPlunges
45.63K Phổ biến
#
JapanTokenizesGovernmentBonds
1.91M Phổ biến
#
#DailyPolymarketHotspot
873.07K Phổ biến

Ghim

sơ đồ trang web

Muon âm thầm "đói chết" 25% các neuron: Sau khi Aurora sửa chữa, hiệu quả dữ liệu tăng gấp trăm lần

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Ghim