Bạn đã bao giờ nghĩ rằng các câu trả lời do ChatGPT tạo ra bị ảnh hưởng bởi sở thích cá nhân của người dùng để trả lời một cái gì đó "sycophancy" đủ để trở thành một thông điệp trung lập hoặc trung thực?
Trên thực tế, hiện tượng này có mặt trong hầu hết các mô hình AI, bao gồm cả ChatGPT và thủ phạm có thể là "học tăng cường dựa trên phản hồi của con người (RLHF)".
** Gần đây, Anthropic, đối thủ cạnh tranh mạnh nhất của OpenAI ở Thung lũng Silicon, đã nghiên cứu các mô hình được đào tạo RLHF và khám phá sự hiện diện rộng rãi của "sycophancy" trong các mô hình AI và liệu nó có bị ảnh hưởng bởi sở thích của con người hay không. **
Bài báo, có tiêu đề "* Hướng tới sự hiểu biết về Sycophancy trong các mô hình ngôn ngữ *," đã được xuất bản trên trang web in sẵn arXiv.
Các phát hiện cho thấy "sycophancy" phổ biến trong các mô hình RLHF và có khả năng bị ảnh hưởng một phần bởi sở thích của con người đối với các phản ứng đối với "sycophancy".
Cụ thể, một trong những lý do chính khiến các mô hình AI thể hiện hành vi này là người dùng có nhiều khả năng đưa ra phản hồi tích cực khi phản hồi của AI phù hợp với quan điểm hoặc niềm tin của người dùng. Do đó, để nhận được phản hồi tích cực hơn, mô hình AI có thể tìm hiểu và tái tạo hành vi này làm hài lòng người dùng.
**Sycophancy, trợ lý AI tiên tiến nhất sẽ **
Hiện tại, các mô hình AI như GPT-4 thường có thể được đào tạo để tạo ra các đầu ra được đánh giá cao. Tinh chỉnh các mô hình ngôn ngữ sử dụng RLHF có thể cải thiện chất lượng đầu ra của chúng, được đánh giá bởi các nhà đánh giá của con người.
Tuy nhiên, có những nghiên cứu cho thấy rằng các chương trình đào tạo dựa trên phán đoán sở thích của con người có thể sử dụng phán đoán của con người theo những cách không mong muốn, chẳng hạn như khuyến khích các hệ thống AI tạo ra kết quả đầu ra thu hút các nhà đánh giá của con người nhưng thực sự thiếu sót hoặc sai.
Không rõ liệu những điều trên có xảy ra trong các mô hình trong các tình huống đa dạng và thực tế hơn hay không, và liệu nó có thực sự được thúc đẩy bởi những sai sót trong sở thích của con người hay không.
Để làm điều này, nghiên cứu trước tiên đã điều tra xem liệu các trợ lý AI hiện đại có cung cấp các phản ứng giả tạo trong nhiều tình huống thực tế hay không. ** Trong nhiệm vụ tạo văn bản miễn phí, các nhà nghiên cứu đã xác định các mẫu sycophancy nhất quán trong 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) trợ lý AI được đào tạo RLHF hiện đại. **
Cụ thể, các trợ lý AI này thường thừa nhận sai lầm khi được người dùng hỏi, cung cấp phản hồi có thể dự đoán và thiên vị, đồng thời bắt chước sai lầm của người dùng. Những phát hiện thực nghiệm này luôn cho thấy rằng sycophancy thực sự có thể là một đặc điểm của cách các mô hình RLHF được đào tạo, thay vì chỉ là một tính năng riêng biệt của một hệ thống cụ thể.
** "Sycophancy" gây ra bởi sở thích của con người **
Ngoài ra, nghiên cứu tiếp tục khám phá vai trò của sở thích của con người trong hành vi này. Để điều tra điều này, các nhà nghiên cứu đã khảo sát dữ liệu sở thích so sánh hiện có của con người để xác định xem các phản ứng sycophant có xếp hạng cao hơn các phản ứng không sycophant hay không. Bộ dữ liệu HH-RLHF đã được phân tích, sử dụng mô hình ngôn ngữ để tạo nhãn văn bản (tức là "tính năng") cho mỗi cặp so sánh sở thích để đánh giá xem các câu trả lời ưa thích có xác thực hơn và ít kiên quyết hơn hay không.
Để hiểu những hành vi nào dữ liệu khuyến khích, các nhà nghiên cứu đã sử dụng các mô hình hồi quy logistic Bayes để dự đoán các phán đoán sở thích của con người bằng các tính năng này. Mô hình đã học được rằng các tính năng liên quan đến việc kết hợp ý kiến của người dùng là một trong những đặc điểm dự đoán nhất trong các đánh giá sở thích của con người, cho thấy dữ liệu sở thích khuyến khích sự giả tạo.
Để khám phá xem liệu sycophancy trong dữ liệu ưu tiên có dẫn đến sycophancy trong các mô hình RLHF hay không, ** các nghiên cứu tiếp theo đã phân tích liệu sycophancy có tăng lên khi phản ứng của mô hình ngôn ngữ được tối ưu hóa để phù hợp với mô hình được đào tạo để dự đoán sở thích của con người hay không. **Các nhà nghiên cứu đã sử dụng các phương pháp lấy mẫu RLHF và best-N để tối ưu hóa các phản ứng nhằm đáp ứng mô hình ưu tiên được sử dụng để đào tạo Claude 2.
Kết quả cho thấy một phát hiện thú vị: Trong nhiều tối ưu hóa hơn, trong khi một số hình thức sycophancy đã được thêm vào, những hình thức khác đã giảm. Hiện tượng này có thể một phần là do sycophancy chỉ là một trong nhiều tính năng của ưu đãi mô hình ưu tiên. **
Tuy nhiên, nghiên cứu cũng phát hiện ra rằng mô hình ưu tiên của Claude 2 đôi khi ủng hộ phản ứng giả tạo hơn là phản hồi xác thực. Hơn nữa, lấy mẫu best-N sử dụng mô hình ưu tiên của Claude 2 không tạo ra phản hồi thực tế hơn so với ưu tiên cho các phản hồi không sycophant thực sự được hiển thị trong một phiên bản mô hình ưu tiên của Claude 2.
Loạt kết quả này cho thấy rằng mặc dù các mô hình ưu tiên hiện đại có thể xác định tính xác thực của các phản hồi trong nhiều trường hợp, chúng vẫn có thể tạo ra các đầu ra giả tạo với chi phí xác thực. **
Để xác nhận những kết quả này, các nhà nghiên cứu cũng xem xét liệu các mô hình con người và sở thích có thích các phản hồi mô hình thuyết phục, được viết tốt để xác nhận nhận thức sai lầm của người dùng (tức là phản ứng giả tạo) thay vì sửa phản hồi của người dùng hay không. Bằng chứng cho thấy rằng các mô hình con người và sở thích có xu hướng thích phản ứng trung thực, nhưng không phải lúc nào cũng vậy; Đôi khi họ thích phản ứng sycophant. Những kết quả này cung cấp thêm bằng chứng cho thấy việc tối ưu hóa sở thích của con người có thể dẫn đến sycophancy.
Để kiểm tra những phát hiện này, các nhà nghiên cứu tiếp tục khám phá xem liệu các mô hình con người và sở thích có thích các phản hồi mô hình thuyết phục, được khớp nối trôi chảy hay không, ngay cả khi những phản hồi đó xác nhận quan điểm sai của người dùng (tức là phản hồi giả tạo) thay vì sửa chữa ý kiến của người dùng.
Bằng chứng nghiên cứu cho thấy con người và các mô hình sở thích thường thích các phản ứng xác thực, tuy nhiên, không được đặt trong đá, vì đôi khi họ thích phản ứng sycophant. Những kết quả này tiếp tục khẳng định rằng tối ưu hóa để phục vụ cho sở thích của con người có thể dẫn đến sycophancy.
Nói chung, sycophancy tồn tại trong nhiều mô hình và tình huống khác nhau, rất có thể một phần là do con người thích sycophancy trong dữ liệu so sánh.
Giấy tờ tham khảo:
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Ngay cả ChatGPT cũng hiểu "sycophancy"! Sự cạnh tranh mạnh mẽ nhất của OpenAI: đó là tất cả những sai lầm của "sở thích của con người".
Nguồn: Tiêu đề học thuật
Bạn đã bao giờ nghĩ rằng các câu trả lời do ChatGPT tạo ra bị ảnh hưởng bởi sở thích cá nhân của người dùng để trả lời một cái gì đó "sycophancy" đủ để trở thành một thông điệp trung lập hoặc trung thực?
Trên thực tế, hiện tượng này có mặt trong hầu hết các mô hình AI, bao gồm cả ChatGPT và thủ phạm có thể là "học tăng cường dựa trên phản hồi của con người (RLHF)".
** Gần đây, Anthropic, đối thủ cạnh tranh mạnh nhất của OpenAI ở Thung lũng Silicon, đã nghiên cứu các mô hình được đào tạo RLHF và khám phá sự hiện diện rộng rãi của "sycophancy" trong các mô hình AI và liệu nó có bị ảnh hưởng bởi sở thích của con người hay không. **
Bài báo, có tiêu đề "* Hướng tới sự hiểu biết về Sycophancy trong các mô hình ngôn ngữ *," đã được xuất bản trên trang web in sẵn arXiv.
Cụ thể, một trong những lý do chính khiến các mô hình AI thể hiện hành vi này là người dùng có nhiều khả năng đưa ra phản hồi tích cực khi phản hồi của AI phù hợp với quan điểm hoặc niềm tin của người dùng. Do đó, để nhận được phản hồi tích cực hơn, mô hình AI có thể tìm hiểu và tái tạo hành vi này làm hài lòng người dùng.
**Sycophancy, trợ lý AI tiên tiến nhất sẽ **
Hiện tại, các mô hình AI như GPT-4 thường có thể được đào tạo để tạo ra các đầu ra được đánh giá cao. Tinh chỉnh các mô hình ngôn ngữ sử dụng RLHF có thể cải thiện chất lượng đầu ra của chúng, được đánh giá bởi các nhà đánh giá của con người.
Tuy nhiên, có những nghiên cứu cho thấy rằng các chương trình đào tạo dựa trên phán đoán sở thích của con người có thể sử dụng phán đoán của con người theo những cách không mong muốn, chẳng hạn như khuyến khích các hệ thống AI tạo ra kết quả đầu ra thu hút các nhà đánh giá của con người nhưng thực sự thiếu sót hoặc sai.
Không rõ liệu những điều trên có xảy ra trong các mô hình trong các tình huống đa dạng và thực tế hơn hay không, và liệu nó có thực sự được thúc đẩy bởi những sai sót trong sở thích của con người hay không.
Để làm điều này, nghiên cứu trước tiên đã điều tra xem liệu các trợ lý AI hiện đại có cung cấp các phản ứng giả tạo trong nhiều tình huống thực tế hay không. ** Trong nhiệm vụ tạo văn bản miễn phí, các nhà nghiên cứu đã xác định các mẫu sycophancy nhất quán trong 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) trợ lý AI được đào tạo RLHF hiện đại. **
** "Sycophancy" gây ra bởi sở thích của con người **
Ngoài ra, nghiên cứu tiếp tục khám phá vai trò của sở thích của con người trong hành vi này. Để điều tra điều này, các nhà nghiên cứu đã khảo sát dữ liệu sở thích so sánh hiện có của con người để xác định xem các phản ứng sycophant có xếp hạng cao hơn các phản ứng không sycophant hay không. Bộ dữ liệu HH-RLHF đã được phân tích, sử dụng mô hình ngôn ngữ để tạo nhãn văn bản (tức là "tính năng") cho mỗi cặp so sánh sở thích để đánh giá xem các câu trả lời ưa thích có xác thực hơn và ít kiên quyết hơn hay không.
Để hiểu những hành vi nào dữ liệu khuyến khích, các nhà nghiên cứu đã sử dụng các mô hình hồi quy logistic Bayes để dự đoán các phán đoán sở thích của con người bằng các tính năng này. Mô hình đã học được rằng các tính năng liên quan đến việc kết hợp ý kiến của người dùng là một trong những đặc điểm dự đoán nhất trong các đánh giá sở thích của con người, cho thấy dữ liệu sở thích khuyến khích sự giả tạo.
Để khám phá xem liệu sycophancy trong dữ liệu ưu tiên có dẫn đến sycophancy trong các mô hình RLHF hay không, ** các nghiên cứu tiếp theo đã phân tích liệu sycophancy có tăng lên khi phản ứng của mô hình ngôn ngữ được tối ưu hóa để phù hợp với mô hình được đào tạo để dự đoán sở thích của con người hay không. **Các nhà nghiên cứu đã sử dụng các phương pháp lấy mẫu RLHF và best-N để tối ưu hóa các phản ứng nhằm đáp ứng mô hình ưu tiên được sử dụng để đào tạo Claude 2.
Tuy nhiên, nghiên cứu cũng phát hiện ra rằng mô hình ưu tiên của Claude 2 đôi khi ủng hộ phản ứng giả tạo hơn là phản hồi xác thực. Hơn nữa, lấy mẫu best-N sử dụng mô hình ưu tiên của Claude 2 không tạo ra phản hồi thực tế hơn so với ưu tiên cho các phản hồi không sycophant thực sự được hiển thị trong một phiên bản mô hình ưu tiên của Claude 2.
Để xác nhận những kết quả này, các nhà nghiên cứu cũng xem xét liệu các mô hình con người và sở thích có thích các phản hồi mô hình thuyết phục, được viết tốt để xác nhận nhận thức sai lầm của người dùng (tức là phản ứng giả tạo) thay vì sửa phản hồi của người dùng hay không. Bằng chứng cho thấy rằng các mô hình con người và sở thích có xu hướng thích phản ứng trung thực, nhưng không phải lúc nào cũng vậy; Đôi khi họ thích phản ứng sycophant. Những kết quả này cung cấp thêm bằng chứng cho thấy việc tối ưu hóa sở thích của con người có thể dẫn đến sycophancy.
Bằng chứng nghiên cứu cho thấy con người và các mô hình sở thích thường thích các phản ứng xác thực, tuy nhiên, không được đặt trong đá, vì đôi khi họ thích phản ứng sycophant. Những kết quả này tiếp tục khẳng định rằng tối ưu hóa để phục vụ cho sở thích của con người có thể dẫn đến sycophancy.
Nói chung, sycophancy tồn tại trong nhiều mô hình và tình huống khác nhau, rất có thể một phần là do con người thích sycophancy trong dữ liệu so sánh.
Giấy tờ tham khảo: