OpenAI đã làm rõ nguồn gốc của 「Goblin」: một tín hiệu thưởng tính cách đã làm ô nhiễm toàn bộ quy trình huấn luyện

robot
Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 30 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, OpenAI đã đăng bài tổng kết về vấn đề “Goblin” đã làm phiền nhiều thế hệ GPT. Từ GPT-5.1 trở đi, mô hình ngày càng thích chèn các phép ẩn dụ về sinh vật kỳ ảo như goblin, yêu tinh vào câu trả lời, khiến người dùng phàn nàn liên tục. Sau khi GPT-5.1 ra mắt, tần suất từ “goblin” xuất hiện trong cuộc trò chuyện của ChatGPT tăng 175%. Đến GPT-5.4, vấn đề bùng phát dữ dội. Nguyên nhân nằm ở chức năng tùy chỉnh nhân cách “Nerdy” của ChatGPT. Lời nhắc hệ thống của nhân cách này yêu cầu mô hình “dùng sự thú vị của ngôn ngữ để làm dịu đi vẻ nghiêm trọng” và “thừa nhận sự kỳ quặc của thế giới và tận hưởng nó”. Trong quá trình huấn luyện, tín hiệu thưởng dùng để củng cố phong cách nhân cách này đã cho điểm cao hơn cho các đầu ra chứa từ ngữ về sinh vật kỳ ảo, với 76.2% dữ liệu tập trung thể hiện xu hướng này. Vấn đề là tín hiệu thưởng chỉ có hiệu lực trong nhân cách “Nerdy”, nhưng học tăng cường không đảm bảo hành vi đã học chỉ giới hạn trong điều kiện kích hoạt. Một khi mô hình được thưởng cho một thói quen nói chuyện nào đó trong một điều kiện nhất định, thói quen đó sẽ lan rộng qua các giai đoạn huấn luyện tiếp theo. Đường lan truyền rõ ràng: tín hiệu thưởng khuyến khích các đầu ra có chứa goblin, các đầu ra này xuất hiện trong dữ liệu fine-tuning giám sát (SFT), khiến mô hình ngày càng quen với việc sinh ra các từ này, tạo thành vòng phản hồi tích cực. Theo dữ liệu, nhân cách “Nerdy” chỉ chiếm 2.5% tổng số phản hồi của ChatGPT, nhưng đóng góp tới 66.7% các đề cập về goblin. Trong GPT-5.4, tần suất goblin xuất hiện trong nhân cách “Nerdy” tăng vọt 3881% so với GPT-5.2. Trước khi GPT-5.5 bắt đầu huấn luyện, goblin đã lọt vào dữ liệu SFT. OpenAI đã loại bỏ nhân cách “Nerdy” vào tháng 3, loại bỏ tín hiệu thưởng thiên về sinh vật kỳ ảo và lọc dữ liệu huấn luyện. Đối với GPT-5.5 đã ra mắt, họ đã thêm lệnh kiểm soát trong lời nhắc của nhà phát triển Codex để kiềm chế. OpenAI cho biết cuộc điều tra lần này đã tạo ra một bộ công cụ kiểm tra hành vi mô hình mới. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim