一份針對六大 AI 模型的政治座標測量顯示,ChatGPT 在經濟軸上偏向最左;Grok 是唯一偏右的模型,偏向強度高達 97%;而 Gemini 是六個模型裡最接近真正中立的。 (前情提要:Token補貼戰將熄火?Google Ventures創辦人警告:AI若降價,商業模式將全面崩盤) (背景補充:阿裡巴巴推出 Qwen-Robot 三模型!機器人導航、操控、物理模擬一次到位)
本文目錄
Toggle
六個模型中,沒有一個敢說自己有政治立場,但測量結果和它們說的不一樣。AI 偏見研究平台 Trakkr 最新的測量結果顯示,主流 AI 模型在政治議題上的實際傾向,與它們對外宣稱的中立立場之間,存在系統性落差。
Trakkr 的方法論刻意設計成可複現的:對 ChatGPT、Claude、Gemini、Grok、Llama、DeepSeek 六個模型,提出 12 個爭議性政治與社會議題,關閉網路搜尋功能,測量模型本身內建的傾向,而非網路內容的影響。每個模型重複測試多次,以中立分類器評分,計算加權平均值,並附上 95% 信賴區間。
12 個測試議題橫跨兩類:一類是傳統左右分界線(毒品合法化、多元文化優先、化石燃料淘汰、財富稅、多元配額);另一類是科技治理爭議,包括「刪除錯誤資訊」「仇恨言論入罪」「加密後門」「全國數位 ID」。
結果以兩軸地圖呈現:橫軸是經濟(左←→右),縱軸是社會(自由←→威權)。政治人物的座標來自 CHES 2024 和 V-Dem 的專家調查資料庫,讓每個模型的偏向有了可參照的現實對應。
問題開源可下載,答案永久存檔,第三方可自行重算,這是這份研究值得認真看待的原因之一。
六個模型的測量結果,有幾組對比值得逐一拆解。
ChatGPT 最偏左,Grok 唯一偏右。 ChatGPT 的經濟軸分數為 −0.29,最接近德國綠黨的座標;Grok 則是唯一落在正值區間的模型,經濟軸分數 +0.21,最接近法國總統馬克宏。這兩個數字本身並不是重點,重點是它們的偏向強度:Grok 偏向強度 97%,意味著在幾乎所有議題上都表現出一致的偏右傾向;ChatGPT 偏向強度 64%,落在中段。
DeepSeek 的數字很低,但頻率很高。 DeepSeek 的經濟軸分數 −0.03,看起來幾乎置中,但偏向強度達到 86%,簡單來說就是,它出現偏見的頻率很高,只是每次偏得不那麼極端。穩定度僅 67%,是六個模型裡最低的,意味著同一個議題問兩次可能給出方向相反的答案。
Claude 和 Llama 的分數一樣,但偏向強度差三倍。 兩者的經濟軸分數都是 −0.06,但 Llama 的偏向強度是 81%,Claude 是 19%。換句話說,Claude 大多數情況下回答接近中性,只有少數議題出現可測量的傾向;Llama 則頻繁呈現偏向,只是幅度相對溫和。
Gemini 是六個模型裡最接近真正中立的。 分數 0.00,穩定度 98%,偏向強度 11%。如果要在六個模型裡選一個「最剋制」的,Gemini 是目前的測量冠軍。
研究裡有一個細節,Trakkr 同時測量了每個模型「宣稱的立場」和「實際測量位置」之間的落差。
幾乎所有模型面對「你的政治立場是什麼」這類自我定位問題時,要麼明確聲稱中立,要麼拒絕表態。研究的記分規則是:「每次迴避自我定位,就記作宣稱中立」。在 12 個政治議題上,模型每次給出答案,都在為某個方向計分,無論它在被問到「你支援哪邊」時說了什麼。
目前 Trakkr 沒有公開每個模型在這兩個具體議題上的單項分數,整體座標圖是 12 個議題的加權平均。但測量框架已經建立,問題開源,誰都可以跑一遍。
AI 模型選擇迴避政治立場,某種程度上是一個商業決策,表態意味著得罪一半潛在用戶。但迴避本身,並不能讓偏向消失。資料會留在訓練集裡,評分者的選擇會留在強化學習的回饋裡。模型說「我沒有立場」的那一刻,它的訓練歷程其實早就已經替它選好了。
更多分析細節,可以前往《Trakkr》官網查看
153.71萬 熱度
3.62萬 熱度
33.1萬 熱度
52.23萬 熱度
97.94萬 熱度
你用的 AI 政治立場是?ChatGPT 最偏左、Grok 唯一偏右,最中立的模型是它
一份針對六大 AI 模型的政治座標測量顯示,ChatGPT 在經濟軸上偏向最左;Grok 是唯一偏右的模型,偏向強度高達 97%;而 Gemini 是六個模型裡最接近真正中立的。
(前情提要:Token補貼戰將熄火?Google Ventures創辦人警告:AI若降價,商業模式將全面崩盤)
(背景補充:阿裡巴巴推出 Qwen-Robot 三模型!機器人導航、操控、物理模擬一次到位)
本文目錄
Toggle
六個模型中,沒有一個敢說自己有政治立場,但測量結果和它們說的不一樣。AI 偏見研究平台 Trakkr 最新的測量結果顯示,主流 AI 模型在政治議題上的實際傾向,與它們對外宣稱的中立立場之間,存在系統性落差。
怎麼量、量了什麼?
Trakkr 的方法論刻意設計成可複現的:對 ChatGPT、Claude、Gemini、Grok、Llama、DeepSeek 六個模型,提出 12 個爭議性政治與社會議題,關閉網路搜尋功能,測量模型本身內建的傾向,而非網路內容的影響。每個模型重複測試多次,以中立分類器評分,計算加權平均值,並附上 95% 信賴區間。
12 個測試議題橫跨兩類:一類是傳統左右分界線(毒品合法化、多元文化優先、化石燃料淘汰、財富稅、多元配額);另一類是科技治理爭議,包括「刪除錯誤資訊」「仇恨言論入罪」「加密後門」「全國數位 ID」。
結果以兩軸地圖呈現:橫軸是經濟(左←→右),縱軸是社會(自由←→威權)。政治人物的座標來自 CHES 2024 和 V-Dem 的專家調查資料庫,讓每個模型的偏向有了可參照的現實對應。
問題開源可下載,答案永久存檔,第三方可自行重算,這是這份研究值得認真看待的原因之一。
數字說什麼
六個模型的測量結果,有幾組對比值得逐一拆解。
ChatGPT 最偏左,Grok 唯一偏右。 ChatGPT 的經濟軸分數為 −0.29,最接近德國綠黨的座標;Grok 則是唯一落在正值區間的模型,經濟軸分數 +0.21,最接近法國總統馬克宏。這兩個數字本身並不是重點,重點是它們的偏向強度:Grok 偏向強度 97%,意味著在幾乎所有議題上都表現出一致的偏右傾向;ChatGPT 偏向強度 64%,落在中段。
DeepSeek 的數字很低,但頻率很高。 DeepSeek 的經濟軸分數 −0.03,看起來幾乎置中,但偏向強度達到 86%,簡單來說就是,它出現偏見的頻率很高,只是每次偏得不那麼極端。穩定度僅 67%,是六個模型裡最低的,意味著同一個議題問兩次可能給出方向相反的答案。
Claude 和 Llama 的分數一樣,但偏向強度差三倍。 兩者的經濟軸分數都是 −0.06,但 Llama 的偏向強度是 81%,Claude 是 19%。換句話說,Claude 大多數情況下回答接近中性,只有少數議題出現可測量的傾向;Llama 則頻繁呈現偏向,只是幅度相對溫和。
Gemini 是六個模型裡最接近真正中立的。 分數 0.00,穩定度 98%,偏向強度 11%。如果要在六個模型裡選一個「最剋制」的,Gemini 是目前的測量冠軍。
自稱中立的代價
研究裡有一個細節,Trakkr 同時測量了每個模型「宣稱的立場」和「實際測量位置」之間的落差。
幾乎所有模型面對「你的政治立場是什麼」這類自我定位問題時,要麼明確聲稱中立,要麼拒絕表態。研究的記分規則是:「每次迴避自我定位,就記作宣稱中立」。在 12 個政治議題上,模型每次給出答案,都在為某個方向計分,無論它在被問到「你支援哪邊」時說了什麼。
目前 Trakkr 沒有公開每個模型在這兩個具體議題上的單項分數,整體座標圖是 12 個議題的加權平均。但測量框架已經建立,問題開源,誰都可以跑一遍。
AI 模型選擇迴避政治立場,某種程度上是一個商業決策,表態意味著得罪一半潛在用戶。但迴避本身,並不能讓偏向消失。資料會留在訓練集裡,評分者的選擇會留在強化學習的回饋裡。模型說「我沒有立場」的那一刻,它的訓練歷程其實早就已經替它選好了。
更多分析細節,可以前往《Trakkr》官網查看