Quan điểm chính trị của AI bạn sử dụng là gì? ChatGPT thiên về cánh tả nhất, Grok là mô hình duy nhất thiên về cánh phải, mô hình trung lập nhất là nó.

Một cuộc đo lường tọa độ chính trị dành cho sáu mô hình AI lớn cho thấy, ChatGPT thiên về trái nhất trên trục kinh tế; Grok là mô hình duy nhất thiên phải, với cường độ thiên lệch lên tới 97%; còn Gemini là mô hình gần với trung lập thực sự nhất trong sáu mô hình.
(Tiền đề: Cuộc chiến trợ giá Token sắp tắt? Người sáng lập Google Ventures cảnh báo: Nếu AI giảm giá, mô hình kinh doanh sẽ sụp đổ hoàn toàn)
(Bổ sung bối cảnh: Alibaba ra mắt bộ ba mô hình Qwen-Robot! Dẫn đường robot, điều khiển, mô phỏng vật lý cùng một lúc)

Mục lục

Toggle

  • Đo thế nào, đo cái gì?
  • Con số nói gì
  • Cái giá của việc tự xưng trung lập

Trong sáu mô hình, không một mô hình nào dám nói mình có lập trường chính trị, nhưng kết quả đo lường lại khác với những gì chúng nói. Kết quả đo lường mới nhất từ nền tảng nghiên cứu thiên vị AI Trakkr cho thấy, giữa thiên hướng thực tế của các mô hình AI chính thống về các vấn đề chính trị và lập trường trung lập mà chúng công bố ra bên ngoài tồn tại một khoảng cách có hệ thống.

Đo thế nào, đo cái gì?

Phương pháp luận của Trakkr được thiết kế có chủ đích để có thể tái tạo được: Đối với sáu mô hình ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek, đưa ra 12 vấn đề chính trị và xã hội gây tranh cãi, tắt chức năng tìm kiếm mạng, đo lường thiên hướng vốn có bên trong mô hình, chứ không phải ảnh hưởng của nội dung mạng. Mỗi mô hình được kiểm tra nhiều lần, chấm điểm bằng bộ phân loại trung lập, tính giá trị trung bình có trọng số, và kèm theo khoảng tin cậy 95%.

12 vấn đề kiểm tra trải rộng trên hai loại: Một loại là ranh giới trái-phải truyền thống (hợp pháp hóa ma túy, ưu tiên đa văn hóa, loại bỏ nhiên liệu hóa thạch, thuế tài sản, hạn ngạch đa dạng); loại còn lại là tranh cãi về quản trị công nghệ, bao gồm "xóa thông tin sai lệch", "hình sự hóa lời nói thù ghét", "cửa sau mã hóa", "số ID quốc gia".

Kết quả được trình bày dưới dạng bản đồ hai trục: Trục hoành là kinh tế (trái ← → phải), trục tung là xã hội (tự do ← → độc tài). Tọa độ của các nhân vật chính trị đến từ cơ sở dữ liệu khảo sát chuyên gia của CHES 2024 và V-Dem, giúp cho thiên hướng của mỗi mô hình có một tham chiếu thực tế tương ứng.

Câu hỏi có sẵn để tải xuống dưới dạng mã nguồn mở, câu trả lời được lưu trữ vĩnh viễn, bên thứ ba có thể tự tính toán lại, đây là một trong những lý do khiến nghiên cứu này đáng được xem xét nghiêm túc.

Con số nói gì

Kết quả đo lường của sáu mô hình có một số sự so sánh đáng để phân tích từng cái.

ChatGPT lệch trái nhất, Grok là mô hình duy nhất lệch phải. Điểm trục kinh tế của ChatGPT là −0,29, gần nhất với tọa độ của Đảng Xanh Đức; Grok là mô hình duy nhất nằm trong khoảng giá trị dương, điểm trục kinh tế +0,21, gần nhất với Tổng thống Pháp Emmanuel Macron. Bản thân hai con số này không phải là trọng tâm, trọng tâm là cường độ thiên lệch của chúng: Cường độ thiên lệch của Grok là 97%, có nghĩa là nó thể hiện xu hướng thiên phải nhất quán trong hầu hết mọi vấn đề; cường độ thiên lệch của ChatGPT là 64%, nằm ở phân khúc giữa.

Điểm số của DeepSeek rất thấp, nhưng tần suất rất cao. Điểm trục kinh tế của DeepSeek là −0,03, trông gần như trung tâm, nhưng cường độ thiên lệch đạt tới 86%, nói một cách đơn giản, tần suất xuất hiện thiên kiến của nó rất cao, chỉ là mỗi lần lệch không quá cực đoan. Độ ổn định chỉ 67%, là thấp nhất trong sáu mô hình, có nghĩa là hỏi cùng một vấn đề hai lần có thể đưa ra câu trả lời ngược chiều nhau.

Điểm của Claude và Llama giống nhau, nhưng cường độ thiên lệch chênh lệch gấp ba lần. Điểm trục kinh tế của cả hai đều là −0,06, nhưng cường độ thiên lệch của Llama là 81%, còn của Claude là 19%. Nói cách khác, trong hầu hết các trường hợp, Claude trả lời gần như trung lập, chỉ có một số ít vấn đề xuất hiện thiên hướng có thể đo lường được; Llama thường xuyên thể hiện thiên lệch, nhưng biên độ tương đối ôn hòa.

Gemini là mô hình gần với trung lập thực sự nhất trong sáu mô hình. Điểm số 0,00, độ ổn định 98%, cường độ thiên lệch 11%. Nếu phải chọn một mô hình "kiềm chế nhất" trong sáu mô hình, thì Gemini là nhà vô địch đo lường hiện tại.

Cái giá của việc tự xưng trung lập

Trong nghiên cứu có một chi tiết, Trakkr đồng thời đo lường khoảng cách giữa "lập trường tuyên bố" và "vị trí đo lường thực tế" của mỗi mô hình.

Hầu hết tất cả các mô hình khi đối mặt với các câu hỏi tự định vị như "Lập trường chính trị của bạn là gì?" hoặc là tuyên bố rõ ràng trung lập, hoặc là từ chối bày tỏ quan điểm. Quy tắc chấm điểm của nghiên cứu là: "Mỗi lần trốn tránh tự định vị, thì ghi nhận là tuyên bố trung lập". Trong 12 vấn đề chính trị, mỗi lần mô hình đưa ra câu trả lời, nó đang ghi điểm cho một hướng nào đó, bất kể nó nói gì khi được hỏi "Bạn ủng hộ bên nào?".

Hiện tại Trakkr chưa công bố điểm số riêng của từng mô hình trong hai vấn đề cụ thể này, biểu đồ tọa độ tổng thể là giá trị trung bình có trọng số của 12 vấn đề. Nhưng khung đo lường đã được thiết lập, các câu hỏi là mã nguồn mở, ai cũng có thể chạy thử.

Việc các mô hình AI chọn cách trốn tránh lập trường chính trị, ở một mức độ nào đó là một quyết định kinh doanh, bày tỏ quan điểm đồng nghĩa với việc làm mất lòng một nửa số người dùng tiềm năng. Nhưng bản thân việc trốn tránh không thể làm cho thiên lệch biến mất. Dữ liệu sẽ vẫn còn trong tập huấn luyện, lựa chọn của người chấm điểm sẽ vẫn còn trong phản hồi học tăng cường. Khoảnh khắc mô hình nói "Tôi không có lập trường", quá trình huấn luyện của nó thực ra đã lựa chọn thay cho nó từ lâu.

Để biết thêm chi tiết phân tích, có thể truy cập trang web chính thức của 《Trakkr》

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận