MiniMax:Phân tích nguyên nhân khiến mô hình lớn không thể xuất ra tên người 「马嘉祺」

robot
Đang tạo bản tóm tắt

Tin tức từ币界网, MiniMax đã phát hành blog kỹ thuật, tiết lộ quá trình điều tra nguyên nhân khiến mô hình lớn dòng m2 không thể xuất ra tên người 「马嘉祺」. Quá trình điều tra bắt đầu từ một ví dụ cụ thể, cuối cùng tiết lộ một vấn đề thoái hóa hệ thống mang tính hệ thống ảnh hưởng đến toàn bộ từ điển. Nguyên nhân chính là do bộ phân tách từ trong quá trình huấn luyện đã hợp nhất 「嘉祺」 thành một token độc lập. Trong giai đoạn tiền huấn luyện, mô hình đã tiếp xúc với lượng lớn văn bản internet, học được token này nhưng trong dữ liệu hội thoại huấn luyện sau đó, các mẫu chứa 「嘉祺」 ít hơn 5 câu. Trong quá trình huấn luyện sau, các token như đánh dấu tool_call, ký hiệu mã nguồn và các token tần suất cao khác liên tục cập nhật không gian vector xung quanh, đẩy các token tần suất thấp như 「嘉祺」 về hướng sai. Mô hình vẫn “nhận biết” được 马嘉祺, có thể trả lời chính xác các thông tin liên quan, nhưng khả năng xuất ra token này đã mất. Nhóm sau đó đã quét toàn bộ khoảng 200.000 token trong từ điển đầy đủ, phát hiện khoảng 4.9% token đã bị thoái hóa rõ rệt. Trong đó, thoái hóa nghiêm trọng nhất là tiếng Nhật: 29.7% token tiếng Nhật bị thoái hóa rõ rệt, vượt xa tiếng Hàn 3.3%, tiếng Nga 3.7%, tiếng Trung 3.9% và tiếng Anh 3.5%.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim