GPT-5.5 '9.7T Tham số' Được đánh giá lại: Đã chỉnh sửa thành Khoảng 1.5T

Theo giám sát của Beating, các nhà nghiên cứu AI Lawrence Chan và Benno Sturgeon đã công bố một bài đánh giá về bài báo của Nhà khoa học chính của Pine AI, Li Bojie, có tiêu đề ‘Khảo sát kiến thức không nén: Ước lượng số lượng tham số của các mô hình ngôn ngữ lớn dạng hộp đen dựa trên khả năng thực tế.’ Bài báo gốc ước tính GPT-5.5 khoảng 9.7T, Claude Opus 4.7 khoảng 4.0T, và o1 khoảng 3.5T bằng cách sử dụng 1.400 câu hỏi đố vui để ‘đo lường’ các mô hình mã nguồn đóng. Các người đánh giá tin rằng trong khi phương pháp này có giá trị, các số liệu ban đầu đã bị thổi phồng đáng kể do tiêu chí chấm điểm và chất lượng câu hỏi. Vấn đề chính nằm ở ‘điểm sàn.’ Bài báo gốc chia các câu hỏi thành bảy cấp độ độ khó, và khi một mô hình trả lời quá nhiều câu sai ở một mức độ nhất định, điểm số có thể trở thành âm; tuy nhiên, mã thực tế đã kéo điểm tối thiểu cho mỗi cấp độ về 0. Điều này đã làm phóng đại khoảng cách hiệu suất của các mô hình tiên tiến trên các câu hỏi khó và làm tăng thêm số lượng tham số suy ra. Bài báo khẳng định điều này không được xử lý theo cách đó, nhưng mã và kết quả công bố đã sử dụng cách xử lý này. Sau khi loại bỏ ‘điểm sàn,’ độ dốc phù hợp giảm từ 6.79 xuống còn 3.56. Độ dốc này có thể hiểu là ‘mỗi điểm tăng trong điểm số, mức tăng tham số sẽ được chuyển đổi như thế nào’; một độ dốc nhỏ hơn cho thấy rằng sự khác biệt điểm số cùng mức không còn tương ứng với sự khác biệt tham số quá mức nữa. Giá trị R² giảm từ 0.917 xuống còn 0.815, cho thấy đường cong phù hợp ‘điểm số với số lượng tham số’ không còn ổn định như trong bài báo gốc. Khoảng dự đoán 90% mở rộng từ 3.0 lần lên 5.7 lần, cho thấy biên độ sai số rộng hơn và các con số điểm đơn lẻ không nên được coi là chính xác. Bài đánh giá cũng chỉ ra rằng 131 trong số 1.400 câu hỏi có sự mơ hồ hoặc câu trả lời sai, chiếm 9.4%. Các vấn đề chủ yếu tập trung ở các câu hỏi khó, được dùng để phân biệt các mô hình mã nguồn đóng tiên tiến như GPT-5.5 và Claude Opus 4.7. Theo tiêu chí đã chỉnh sửa của họ, GPT-5.5 đã giảm từ 9659B xuống còn 1458B, với khoảng dự đoán 90% từ 256B đến 8311B; Claude Opus 4.7 giảm từ 4042B xuống còn 1132B; và GPT-5 giảm từ 4088B xuống còn 1330B. Các người đánh giá cũng nhấn mạnh rằng 1.5T không nên coi là số lượng tham số thực sự của GPT-5.5. Một kết luận chính xác hơn là phương pháp ‘đo lường đố vui’ này rất nhạy cảm với chi tiết chấm điểm và chất lượng câu hỏi, và các con số như 9.7T không thể trực tiếp dùng làm thước đo trọng số cho các mô hình mã nguồn đóng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim