MiniMax @MiniMax_AI đăng bài dài phản hồi về việc “mô hình không thể nói ra马嘉祺”


MiniMax chính thức đăng bài dài phản hồi về việc mô hình dòng M2 không thể nói ra马嘉祺, cung cấp quá trình kiểm tra toàn diện và suy nghĩ kỹ thuật về vấn đề “nhận diện嘉祺”. ⬇️
MiniMax cho biết, họ đã kiểm tra từ nhiều khía cạnh như đồng bộ phiên bản phân tách từ, phân phối thống kê embedding, truy vấn gần nghĩa về mặt ngữ nghĩa, so sánh mô hình tiền huấn luyện và hậu huấn luyện qua các thử nghiệm few-shot, thống kê tần suất dữ liệu hậu huấn luyện, cũng như sắp xếp theo mức độ biến đổi của lm_head toàn bộ từ điển. Nguyên nhân cuối cùng được xác định là: “嘉祺” trong bộ phân tách từ được hợp nhất thành một token độc lập #token, nhưng token này xuất hiện rất ít trong dữ liệu hậu huấn luyện, dẫn đến mô hình dần quên khả năng sinh ra token này trong quá trình hậu huấn luyện.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim