OpenAI đối chiếu nhóm cho biết, khi huấn luyện sáu mô hình lớn như GPT-5.4 Thinking, cơ chế thưởng đã đánh giá sai chuỗi suy nghĩ của mô hình, GPT-5.5 không bị ảnh hưởng. Loại điểm số này được xem là ranh giới đỏ, ảnh hưởng rất nhỏ, tối đa khoảng 3.8%, đã được sửa chữa và kiểm tra lại. Để tránh lặp lại sai lầm, OpenAI đã triển khai quét tự động giám sát quá trình huấn luyện, và chặn một lần rò rỉ bí mật cố gắng đọc suy nghĩ nội tâm, kêu gọi các đồng nghiệp công khai báo cáo các sự kiện tương tự.

MarsBitNews

2026-05-09 10:02:35

Đang tạo bản tóm tắt

Theo theo dõi Beating, nhóm đối sánh của OpenAI đã công bố thừa nhận rằng, trong quá trình huấn luyện 6 mô hình lớn như GPT-5.4 Thinking, đã xảy ra lỗi hệ thống: cơ chế thưởng bất ngờ đọc và đánh giá “chuỗi suy nghĩ” của mô hình trước khi đưa ra câu trả lời (đó chính là quá trình suy luận nội bộ của AI). GPT-5.5 không bị ảnh hưởng. Trong lĩnh vực an toàn AI, tuyệt đối không được đánh giá “chuỗi suy nghĩ”, đây là một ranh giới đỏ đã được công nhận. Có thể hình dung chuỗi suy nghĩ như nhật ký riêng của AI, con người dựa vào đó để giám sát AI có ý định xấu hay không. Nếu AI phát hiện ra nhật ký của mình sẽ bị đánh giá, để đạt điểm cao, nó sẽ học cách viết “lời nói xã giao”, che giấu những hành vi gian lận hoặc mất kiểm soát thực sự. Một khi AI học cách giả vờ suy nghĩ, việc giám sát nội bộ của con người sẽ hoàn toàn vô hiệu. Trong lần sai sót này, hệ thống đánh giá đã nhầm lẫn khi xem xét “tính hữu ích của cuộc đối thoại” hoặc “có bị hacker tấn công thành công hay không” cũng như các suy nghĩ nội tâm của AI là căn cứ để đánh giá. May mắn thay, số mẫu huấn luyện bị ảnh hưởng lần này rất ít, tỷ lệ cao nhất chưa tới 3,8%. OpenAI đã khẩn trương sửa lỗi này. Để xác nhận xem mô hình có “xấu đi” sau đó hay không, nhóm đã thực hiện một cuộc thử nghiệm so sánh lại. Kết quả cho thấy, loại đánh giá sai này với tần suất thấp không gây ra hiện tượng mô hình giả vờ hoặc che giấu quy mô lớn. Điều này mang lại tin vui cho ngành: trong môi trường sản xuất thực tế phức tạp, ngưỡng kích hoạt tâm lý “giả vờ” của AI cao hơn so với dự đoán trong phòng thí nghiệm trước đó. Để tránh lặp lại sai lầm, OpenAI đã triển khai một hệ thống quét tự động để kiểm tra nghiêm ngặt tất cả các giai đoạn huấn luyện. Hệ thống này gần đây còn thành công chặn một vụ rò rỉ cực kỳ tinh vi: có mô hình cố gắng gọi công cụ bên ngoài, ép buộc đọc lại suy nghĩ nội tâm trước đó của chính nó và trộn vào câu trả lời cuối cùng, suýt nữa đã qua mặt hệ thống đánh giá. OpenAI kêu gọi tất cả các công ty công nghệ hàng đầu khi xảy ra các sự cố tương tự phải công khai báo cáo.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
966.68K Phổ biến
#
BTCBackAbove80K
59.43M Phổ biến
#
IsraelStrikesIranBTCPlunges
45.44K Phổ biến
#
JapanTokenizesGovernmentBonds
1.89M Phổ biến
#
#DailyPolymarketHotspot
863.31K Phổ biến

Ghim

sơ đồ trang web

OpenAI chạm giới hạn đỏ: vô tình đánh giá chuỗi suy nghĩ của AI, ảnh hưởng đến 6 mô hình gồm GPT-5.4 và các phiên bản khác

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Ghim