Tại sao mô hình lớn không thể viết ra 「马嘉祺」?Quét toàn bộ từ điển MiniMax phát hiện gần 5% Token bị quên trong quá trình huấn luyện sau

Theo giám sát Beating của Động Chác, MiniMax đã đăng bài viết kỹ thuật tiết lộ quá trình điều tra nguyên nhân khiến mô hình lớn dòng M2 không thể xuất ra tên người “马嘉祺”. Quá trình điều tra bắt đầu từ một ví dụ cụ thể, cuối cùng phát hiện ra một vấn đề thoái hóa hệ thống ảnh hưởng toàn bộ từ điển từ vựng.

Nguyên nhân chính là bộ phân tách từ (tokenizer, thành phần chia văn bản thành các đơn vị xử lý của mô hình) trong quá trình huấn luyện đã hợp nhất “嘉祺” thành một token độc lập. Trong giai đoạn tiền huấn luyện, mô hình đã tiếp xúc với lượng lớn văn bản internet, học được token này; nhưng trong dữ liệu hội thoại huấn luyện sau, số mẫu chứa “嘉祺” chưa đến 5. Trong quá trình huấn luyện sau, các token như tool_call, ký hiệu mã code và các token tần suất cao khác liên tục cập nhật không gian vector xung quanh, đẩy các token tần suất thấp như “嘉祺” về phía sai lệch. Mặc dù mô hình vẫn “nhận biết” được 马嘉祺 và có thể trả lời chính xác các thông tin liên quan, nhưng khả năng xuất ra token này đã bị mất.

Nhóm sau đó đã quét toàn bộ từ điển gồm khoảng 200,000 token, phát hiện khoảng 4.9% token đã gặp phải thoái hóa rõ rệt. Trong đó, thoái hóa nặng nhất là tiếng Nhật: 29.7% token tiếng Nhật bị thoái hóa rõ rệt, cao hơn nhiều so với tiếng Hàn 3.3%, tiếng Nga 3.7%, tiếng Trung 3.9% và tiếng Anh 3.5%. Các từ khóa SEO rác như “传奇私服” (phiên bản game truyền kỳ), “无痛人流” (nạo hút thai không đau) cũng nằm trong danh sách thoái hóa hàng đầu, cơ chế tương tự như “嘉祺”.

Thoái hóa nghiêm trọng của tiếng Nhật còn giải mã một bí ẩn cũ. Trước đây, mô hình đôi khi trộn lẫn ký tự tiếng Nga hoặc tiếng Hàn trong các cuộc hội thoại tiếng Nhật, nhưng chưa rõ nguyên nhân. Phân tích lần này cho thấy, sau khi các tham số token tiếng Nhật bị drift, chúng bị nhầm lẫn trong không gian vector với các token của các ngôn ngữ khác, dẫn đến việc token tiếng Nhật bị kích hoạt sai (xung đột ngôn ngữ), đồng thời đẩy các token tiếng Trung tần suất thấp lân cận ra khỏi phạm vi xác suất bình thường (quên token).

Giải pháp sửa chữa là xây dựng một bộ dữ liệu tổng hợp bao phủ toàn bộ từ điển, để mô hình luyện tập bằng nhiệm vụ đọc đi đọc lại đơn giản cho từng token. Hiệu quả rõ rệt: tỷ lệ ký tự tiếng Nga trộn lẫn trong câu trả lời tiếng Nhật giảm từ 47% xuống còn 1%, độ ổn định của tham số xuất toàn bộ từ điển (độ tương đồng cosine) từ mức thấp nhất 0.329 lên tất cả đều trên 0.97.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim