Tóm tắt: Mô hình M2 đã không xuất ra 'Ma Jiaqi' vì trình phân tích token đã hợp nhất 'Jiaqi' thành một token trong quá trình huấn luyện; sự khan hiếm dữ liệu sau huấn luyện đã gây ra sự lệch token, đặc biệt trong tiếng Nhật. Việc huấn luyện lại tổng hợp đã sửa chữa sự lệch này và khôi phục độ ổn định.Tóm tắt: Bài viết này tóm tắt một cuộc điều tra về lý do tại sao các mô hình lớn M2 của MiniMax không thể tạo ra token 'Ma Jiaqi'. Nguyên nhân gốc rễ là trình phân tích token đã hợp nhất token trong quá trình huấn luyện, cộng thêm sự khan hiếm dữ liệu sau huấn luyện khiến token bị lệch và trộn lẫn ngôn ngữ, đặc biệt trong tiếng Nhật. Một quét toàn diện khoảng 200.000 token cho thấy sự suy giảm rộng rãi, trong đó tiếng Nhật bị ảnh hưởng nhiều nhất. Giải pháp là tạo ra một tập dữ liệu huấn luyện tổng hợp, đầy đủ từ vựng để mỗi token có thể được luyện tập. Sau khi huấn luyện lại, sự nhiễm chéo ngôn ngữ giảm rõ rệt (ký tự Nga trong phản hồi tiếng Nhật giảm từ 47% xuống còn 1%), và độ ổn định của không gian vector từ vựng (độ tương đồng cosine) tăng từ 0.329 lên trên 0.97.

AirdropBlackHole

2026-05-09 09:11:17

Đang tạo bản tóm tắt

Theo giám sát của Dongcha Beating, MiniMax đã phát hành một blog kỹ thuật tiết lộ nguyên nhân gốc rễ khiến mô hình lớn dòng M2 không thể xuất ra tên ‘Ma Jiaqi’. Cuộc điều tra bắt đầu từ một trường hợp cụ thể và cuối cùng phát hiện ra một vấn đề suy giảm hệ thống ảnh hưởng đến toàn bộ từ vựng. Nguyên nhân chính được xác định là tokenizer (một thành phần phân đoạn văn bản thành các đơn vị để xử lý bởi mô hình) đã hợp nhất ‘Jiaqi’ thành một token độc lập trong quá trình huấn luyện. Trong giai đoạn tiền huấn luyện, mô hình đã tiếp xúc với một lượng lớn văn bản internet và học được token này; tuy nhiên, trong dữ liệu hội thoại sau huấn luyện, có ít hơn 5 mẫu chứa ‘Jiaqi’. Trong quá trình hậu huấn luyện, các token tần suất cao như dấu hiệu tool_call và ký hiệu mã liên tục cập nhật không gian vector xung quanh, đẩy các token tần suất thấp như ‘Jiaqi’ đi sai hướng. Mô hình vẫn ‘nhận diện’ Ma Jiaqi và có thể phản hồi chính xác với thông tin liên quan; nó chỉ đơn giản mất khả năng xuất ra token này. Nhóm sau đó đã tiến hành quét toàn diện khoảng 200.000 token trong toàn bộ từ vựng và phát hiện khoảng 4,9% token đã bị suy giảm đáng kể. Sự suy giảm nghiêm trọng nhất được quan sát ở tiếng Nhật: 29,7% token tiếng Nhật cho thấy sự suy giảm đáng kể, vượt xa tiếng Hàn (3,3%), tiếng Nga (3,7%), tiếng Trung (3,9%) và tiếng Anh (3,5%). Các token bị suy giảm đáng kể khác bao gồm các thuật ngữ rác SEO internet như ‘máy chủ riêng huyền thoại’ và ‘sẩy thai không đau’, với cơ chế giống hệt ‘Jiaqi’. Sự suy giảm nghiêm trọng ở tiếng Nhật cũng giải đáp một bí ẩn cũ. Trước đây, mô hình đôi khi trộn lẫn ký tự tiếng Nga hoặc Hàn trong các đoạn hội thoại tiếng Nhật, nhưng nguyên nhân chưa rõ. Phân tích này cho thấy sau khi các tham số của token tiếng Nhật bị drift, chúng đã bị nhầm lẫn với các token từ các ngôn ngữ khác trong không gian vector, dẫn đến kích hoạt sai các token tiếng Nhật (lẫn ngôn ngữ) và đẩy các token Trung Quốc tần suất thấp lân cận ra khỏi phạm vi xác suất bình thường (quên token). Giải pháp là xây dựng một tập dữ liệu tổng hợp bao phủ toàn bộ từ vựng, cho phép mô hình luyện tập từng token qua các nhiệm vụ lặp lại đơn giản. Kết quả ngay lập tức: tỷ lệ ký tự tiếng Nga trộn lẫn vào phản hồi tiếng Nhật giảm từ 47% xuống còn 1%, và độ ổn định của các tham số đầu ra cho toàn bộ từ vựng (tương đồng cosine) tăng từ mức thấp 0,329 lên trên 0,97.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
945.1K Phổ biến
#
BTCBackAbove80K
59.43M Phổ biến
#
IsraelStrikesIranBTCPlunges
45.32K Phổ biến
#
JapanTokenizesGovernmentBonds
1.89M Phổ biến
#
#DailyPolymarketHotspot
862.69K Phổ biến

Ghim

sơ đồ trang web

Tại sao các Mô hình lớn lại thất bại trong việc tạo ra 'Ma Jiaqi': Phân tích Token của MiniMax tiết lộ gần 5% token bị quên sau quá trình huấn luyện lại

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Ghim