OpenAI đã làm rõ nguồn gốc của 「Goblin」: một tín hiệu thưởng tính cách đã làm ô nhiễm toàn bộ quy trình huấn luyện

Theo theo dõi Beating, OpenAI đã đăng bài tổng kết về vấn đề “goblin” gây phiền toái cho nhiều thế hệ dòng GPT. Từ GPT-5.1 trở đi, mô hình ngày càng thích chèn các phép ẩn dụ về sinh vật kỳ ảo như goblin, yêu tinh vào câu trả lời, khiến người dùng phàn nàn liên tục. Sau khi GPT-5.1 ra mắt, tần suất xuất hiện từ “goblin” trong cuộc trò chuyện của ChatGPT đã tăng 175%. Đến GPT-5.4, vấn đề bùng phát dữ dội.

Nguyên nhân nằm ở chức năng tùy chỉnh nhân cách “Nerdy” của ChatGPT. Lời nhắc hệ thống của nhân cách này yêu cầu mô hình “dùng sự thú vị của ngôn ngữ để giảm bớt tính nghiêm túc” và “thừa nhận sự kỳ quặc của thế giới và tận hưởng nó”. Trong quá trình huấn luyện, tín hiệu thưởng dùng để củng cố phong cách nhân cách này đã cho điểm cao hơn cho các đầu ra chứa từ ngữ về sinh vật kỳ ảo, và 76,2% tập dữ liệu cho thấy xu hướng này.

Vấn đề là tín hiệu thưởng chỉ có hiệu lực trong nhân cách “Nerdy”, nhưng học tăng cường không đảm bảo hành vi đã học chỉ giới hạn trong điều kiện kích hoạt đó. Một khi mô hình được thưởng cho một thói quen nói chuyện nào đó trong một điều kiện nhất định, thói quen này sẽ lan rộng qua các giai đoạn huấn luyện tiếp theo. Đường lan truyền rõ ràng: tín hiệu thưởng khuyến khích các đầu ra có chứa “goblin”, các đầu ra này xuất hiện trong dữ liệu fine-tuning giám sát (SFT), khiến mô hình ngày càng quen với việc sinh ra các từ này, tạo thành vòng phản hồi tích cực. Theo dữ liệu, nhân cách “Nerdy” chỉ chiếm 2,5% tổng số phản hồi của ChatGPT, nhưng lại đóng góp tới 66,7% các đề cập về goblin. Trong GPT-5.4, tỷ lệ goblin xuất hiện trong nhân cách “Nerdy” tăng vọt 3881% so với GPT-5.2.

Trước khi xác định nguyên nhân, GPT-5.5 đã bắt đầu huấn luyện, và goblin đã lọt vào dữ liệu SFT. OpenAI đã loại bỏ nhân cách “Nerdy” vào tháng 3, loại bỏ tín hiệu thưởng liên quan đến sinh vật kỳ ảo và lọc dữ liệu huấn luyện. Đối với GPT-5.5 đã ra mắt, họ đã thêm lệnh kiểm soát trong lời nhắc của nhà phát triển Codex để hạn chế hiện tượng này. OpenAI cho biết cuộc điều tra lần này đã thúc đẩy sự ra đời của một bộ công cụ kiểm tra hành vi mô hình mới.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim