OpenAI công bố tổng kết vấn đề "Goblin" của dòng GPT, bắt nguồn từ lời nhắc hệ thống mang tính cá nhân của mọt sách và tín hiệu củng cố khiến mô hình ưa thích từ vựng về sinh vật kỳ ảo; mọt sách chỉ chiếm 2.5% số phản hồi nhưng đóng góp 66.7% các đề cập về goblin, GPT-5.4 đạt đỉnh tăng vọt, 5.5 đã vào dữ liệu SFT. Để giải quyết, đã loại bỏ nhân cách mọt sách vào cuối tháng 3, loại bỏ phần thưởng liên quan, 5.5 thêm lệnh kiểm soát vào hướng dẫn của Codex, và phát triển công cụ kiểm tra hành vi mô hình mới.

MeNews

2026-04-30 04:40:17

Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 30 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, OpenAI đã đăng bài tổng kết về vấn đề “Goblin” đã làm phiền nhiều thế hệ GPT. Từ GPT-5.1 trở đi, mô hình ngày càng thích chèn các phép ẩn dụ về sinh vật kỳ ảo như goblin, yêu tinh vào câu trả lời, khiến người dùng phàn nàn liên tục. Sau khi GPT-5.1 ra mắt, tần suất từ “goblin” xuất hiện trong cuộc trò chuyện của ChatGPT tăng 175%. Đến GPT-5.4, vấn đề bùng phát dữ dội. Nguyên nhân nằm ở chức năng tùy chỉnh nhân cách “Nerdy” của ChatGPT. Lời nhắc hệ thống của nhân cách này yêu cầu mô hình “dùng sự thú vị của ngôn ngữ để làm dịu đi vẻ nghiêm trọng” và “thừa nhận sự kỳ quặc của thế giới và tận hưởng nó”. Trong quá trình huấn luyện, tín hiệu thưởng dùng để củng cố phong cách nhân cách này đã cho điểm cao hơn cho các đầu ra chứa từ ngữ về sinh vật kỳ ảo, với 76.2% dữ liệu tập trung thể hiện xu hướng này. Vấn đề là tín hiệu thưởng chỉ có hiệu lực trong nhân cách “Nerdy”, nhưng học tăng cường không đảm bảo hành vi đã học chỉ giới hạn trong điều kiện kích hoạt. Một khi mô hình được thưởng cho một thói quen nói chuyện nào đó trong một điều kiện nhất định, thói quen đó sẽ lan rộng qua các giai đoạn huấn luyện tiếp theo. Đường lan truyền rõ ràng: tín hiệu thưởng khuyến khích các đầu ra có chứa goblin, các đầu ra này xuất hiện trong dữ liệu fine-tuning giám sát (SFT), khiến mô hình ngày càng quen với việc sinh ra các từ này, tạo thành vòng phản hồi tích cực. Theo dữ liệu, nhân cách “Nerdy” chỉ chiếm 2.5% tổng số phản hồi của ChatGPT, nhưng đóng góp tới 66.7% các đề cập về goblin. Trong GPT-5.4, tần suất goblin xuất hiện trong nhân cách “Nerdy” tăng vọt 3881% so với GPT-5.2. Trước khi GPT-5.5 bắt đầu huấn luyện, goblin đã lọt vào dữ liệu SFT. OpenAI đã loại bỏ nhân cách “Nerdy” vào tháng 3, loại bỏ tín hiệu thưởng thiên về sinh vật kỳ ảo và lọc dữ liệu huấn luyện. Đối với GPT-5.5 đã ra mắt, họ đã thêm lệnh kiểm soát trong lời nhắc của nhà phát triển Codex để kiềm chế. OpenAI cho biết cuộc điều tra lần này đã tạo ra một bộ công cụ kiểm tra hành vi mô hình mới. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
394.05K Phổ biến
#
#FedHoldsRateButDividesDeepen
16.64K Phổ biến
#
IsraelStrikesIranBTCPlunges
36.45K Phổ biến
#
#DailyPolymarketHotspot
719.49K Phổ biến
#
BitcoinSpotVolumeNewLow
162.66M Phổ biến

Ghim

sơ đồ trang web

OpenAI đã làm rõ nguồn gốc của 「Goblin」: một tín hiệu thưởng tính cách đã làm ô nhiễm toàn bộ quy trình huấn luyện

Chủ đề thịnh hành

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Ghim