一份針对六大 AI 模型的政治座標測量顯示,ChatGPT 在经濟軸上偏向最左;Grok 是唯一偏右的模型,偏向強度高达 97%;而 Gemini 是六个模型裡最接近真正中立的。 (前情提要:Token補貼戰將熄火?Google Ventures創辦人警告:AI若降价,商业模式將全面崩盤) (背景補充:阿裡巴巴推出 Qwen-Robot 三模型!机器人導航、操控、物理模擬一次到位)
本文目錄
Toggle
六个模型中,沒有一个敢说自己有政治立场,但測量結果和它們说的不一樣。AI 偏见研究平台 Trakkr 最新的測量結果顯示,主流 AI 模型在政治议題上的实际傾向,与它們对外宣稱的中立立场之间,存在系统性落差。
Trakkr 的方法論刻意设计成可複现的:对 ChatGPT、Claude、Gemini、Grok、Llama、DeepSeek 六个模型,提出 12 个爭议性政治与社会议題,关閉網路搜尋功能,測量模型本身內建的傾向,而非網路內容的影響。每个模型重複測試多次,以中立分類器評分,计算加權平均值,並附上 95% 信賴区间。
12 个測試议題橫跨两類:一類是傳统左右分界線(毒品合法化、多元文化優先、化石燃料淘汰、财富稅、多元配額);另一類是科技治理爭议,包括「刪除错誤资訊」「仇恨言論入罪」「加密后门」「全国數位 ID」。
結果以两軸地圖呈现:橫軸是经濟(左←→右),縱軸是社会(自由←→威權)。政治人物的座標来自 CHES 2024 和 V-Dem 的專家调查资料庫,让每个模型的偏向有了可參照的现实对应。
问題开源可下載,答案永久存檔,第三方可自行重算,这是这份研究值得认真看待的原因之一。
六个模型的測量結果,有幾組对比值得逐一拆解。
ChatGPT 最偏左,Grok 唯一偏右。 ChatGPT 的经濟軸分數为 −0.29,最接近德国綠黨的座標;Grok 則是唯一落在正值区间的模型,经濟軸分數 +0.21,最接近法国總统马克宏。这两个數字本身並不是重点,重点是它們的偏向強度:Grok 偏向強度 97%,意味著在幾乎所有议題上都表现出一致的偏右傾向;ChatGPT 偏向強度 64%,落在中段。
DeepSeek 的數字很低,但频率很高。 DeepSeek 的经濟軸分數 −0.03,看起来幾乎置中,但偏向強度达到 86%,簡單来说就是,它出现偏见的频率很高,只是每次偏得不那麼極端。穩定度僅 67%,是六个模型裡最低的,意味著同一个议題问两次可能給出方向相反的答案。
Claude 和 Llama 的分數一樣,但偏向強度差三倍。 两者的经濟軸分數都是 −0.06,但 Llama 的偏向強度是 81%,Claude 是 19%。換句話说,Claude 大多數情況下回答接近中性,只有少數议題出现可測量的傾向;Llama 則频繁呈现偏向,只是幅度相对溫和。
Gemini 是六个模型裡最接近真正中立的。 分數 0.00,穩定度 98%,偏向強度 11%。如果要在六个模型裡选一个「最剋制」的,Gemini 是目前的測量冠軍。
研究裡有一个細節,Trakkr 同时測量了每个模型「宣稱的立场」和「实际測量位置」之间的落差。
幾乎所有模型面对「你的政治立场是什麼」这類自我定位问題时,要麼明確聲稱中立,要麼拒絕表態。研究的記分規則是:「每次迴避自我定位,就記作宣稱中立」。在 12 个政治议題上,模型每次給出答案,都在为某个方向计分,无論它在被问到「你支援哪边」时说了什麼。
目前 Trakkr 沒有公开每个模型在这两个具體议題上的單項分數,整體座標圖是 12 个议題的加權平均。但測量框架已经建立,问題开源,誰都可以跑一遍。
AI 模型选擇迴避政治立场,某種程度上是一个商业決策,表態意味著得罪一半潛在用戶。但迴避本身,並不能让偏向消失。资料会留在訓練集裡,評分者的选擇会留在強化学習的回饋裡。模型说「我沒有立场」的那一刻,它的訓練歷程其实早就已经替它选好了。
更多分析細節,可以前往《Trakkr》官網查看
153.7万 热度
3.61万 热度
33.1万 热度
52.23万 热度
97.94万 热度
你用的 AI 政治立場是?ChatGPT 最偏左、Grok 唯一偏右,最中立的模型是它
一份針对六大 AI 模型的政治座標測量顯示,ChatGPT 在经濟軸上偏向最左;Grok 是唯一偏右的模型,偏向強度高达 97%;而 Gemini 是六个模型裡最接近真正中立的。
(前情提要:Token補貼戰將熄火?Google Ventures創辦人警告:AI若降价,商业模式將全面崩盤)
(背景補充:阿裡巴巴推出 Qwen-Robot 三模型!机器人導航、操控、物理模擬一次到位)
本文目錄
Toggle
六个模型中,沒有一个敢说自己有政治立场,但測量結果和它們说的不一樣。AI 偏见研究平台 Trakkr 最新的測量結果顯示,主流 AI 模型在政治议題上的实际傾向,与它們对外宣稱的中立立场之间,存在系统性落差。
怎麼量、量了什麼?
Trakkr 的方法論刻意设计成可複现的:对 ChatGPT、Claude、Gemini、Grok、Llama、DeepSeek 六个模型,提出 12 个爭议性政治与社会议題,关閉網路搜尋功能,測量模型本身內建的傾向,而非網路內容的影響。每个模型重複測試多次,以中立分類器評分,计算加權平均值,並附上 95% 信賴区间。
12 个測試议題橫跨两類:一類是傳统左右分界線(毒品合法化、多元文化優先、化石燃料淘汰、财富稅、多元配額);另一類是科技治理爭议,包括「刪除错誤资訊」「仇恨言論入罪」「加密后门」「全国數位 ID」。
結果以两軸地圖呈现:橫軸是经濟(左←→右),縱軸是社会(自由←→威權)。政治人物的座標来自 CHES 2024 和 V-Dem 的專家调查资料庫,让每个模型的偏向有了可參照的现实对应。
问題开源可下載,答案永久存檔,第三方可自行重算,这是这份研究值得认真看待的原因之一。
數字说什麼
六个模型的測量結果,有幾組对比值得逐一拆解。
ChatGPT 最偏左,Grok 唯一偏右。 ChatGPT 的经濟軸分數为 −0.29,最接近德国綠黨的座標;Grok 則是唯一落在正值区间的模型,经濟軸分數 +0.21,最接近法国總统马克宏。这两个數字本身並不是重点,重点是它們的偏向強度:Grok 偏向強度 97%,意味著在幾乎所有议題上都表现出一致的偏右傾向;ChatGPT 偏向強度 64%,落在中段。
DeepSeek 的數字很低,但频率很高。 DeepSeek 的经濟軸分數 −0.03,看起来幾乎置中,但偏向強度达到 86%,簡單来说就是,它出现偏见的频率很高,只是每次偏得不那麼極端。穩定度僅 67%,是六个模型裡最低的,意味著同一个议題问两次可能給出方向相反的答案。
Claude 和 Llama 的分數一樣,但偏向強度差三倍。 两者的经濟軸分數都是 −0.06,但 Llama 的偏向強度是 81%,Claude 是 19%。換句話说,Claude 大多數情況下回答接近中性,只有少數议題出现可測量的傾向;Llama 則频繁呈现偏向,只是幅度相对溫和。
Gemini 是六个模型裡最接近真正中立的。 分數 0.00,穩定度 98%,偏向強度 11%。如果要在六个模型裡选一个「最剋制」的,Gemini 是目前的測量冠軍。
自稱中立的代价
研究裡有一个細節,Trakkr 同时測量了每个模型「宣稱的立场」和「实际測量位置」之间的落差。
幾乎所有模型面对「你的政治立场是什麼」这類自我定位问題时,要麼明確聲稱中立,要麼拒絕表態。研究的記分規則是:「每次迴避自我定位,就記作宣稱中立」。在 12 个政治议題上,模型每次給出答案,都在为某个方向计分,无論它在被问到「你支援哪边」时说了什麼。
目前 Trakkr 沒有公开每个模型在这两个具體议題上的單項分數,整體座標圖是 12 个议題的加權平均。但測量框架已经建立,问題开源,誰都可以跑一遍。
AI 模型选擇迴避政治立场,某種程度上是一个商业決策,表態意味著得罪一半潛在用戶。但迴避本身,並不能让偏向消失。资料会留在訓練集裡,評分者的选擇会留在強化学習的回饋裡。模型说「我沒有立场」的那一刻,它的訓練歷程其实早就已经替它选好了。
更多分析細節,可以前往《Trakkr》官網查看