AI文艺复兴》哲学家成为AI实验室抢手货,把伦理写进你的模型

当你问 Claude 某件事該不該做,背后有人预先想好了答案,而那个人可能是哲学家。Anthropic 与 OpenAI 正在把義務論与后果論两套倫理框架,硬寫进 AI 的行为規則。
(前情提要:从出走 OpenAI 到槓上五角大廈:Anthropic 兄妹檔如何为 AI 畫下紅線,避免文明崩潰)
(背景補充:OpenRouter 大逃殺遊戲实測:Grok 稱王、Claude 的好習慣反成致命傷)

本文目錄

切換

  • 規則背后的两種哲学
  • 为什麼是哲学家?
  • 人數只是零头,立场也未必中立

问Claude 和 ChatGPT 同一个棘手问題,两者給的答案可能截然不同。这不是訓練资料的偏差,也不是随机性的噪音,而是因为两套对立的哲学框架,正被各家 AI 公司寫进它們的行为守則。你用的模型背后,其实是某種倫理立场的产物。

規則背后的两種哲学

「AI 憲法」(白話说就是约束模型回应与行动的規則集)並不是各家新創的行销話術,而是一套把抽象倫理转化为系统可執行指令的嘗試。问題在於,倫理本身就存在根本分歧。

義務論(deontology,簡單来说就是「有些事打死不能做」):不論后果多麼美好,说謊、脅迫、把人当工具都是不可踰越的紅線。

后果論(consequentialism,白話说就是「算總帳,利大於弊就可以做」):衡量成本与效益,只要预期利益超过可预见风险,行动即合理。

Anthropic 的 Claude 较採義務論路線,在家庭或公共场合等不同情境下,模型行为更一致、更少例外;ChatGPT 与 Google Gemini 則更接近后果論,傾向逐案評估风险与收益。

这个差異不是偶然,Anthropic 的「憲法」制定團队明確納入哲学家 Amanda Askell 与 Joe Carlsmith,把哲学訓練帶进模型对齐的核心環節。这是一組真实的張力:同樣一个请求,義務論的系统可能直接拒絕,后果論的系统可能先问「最終对誰有益?」

为什麼是哲学家?

十年前,文科生常被師长告誡「去学程式才有出路」;如今輪到工程師在焦慮:AI 会不会让他們的技能變得过时?

Anthropic、Google DeepMind、Meta 近年主动招聘哲学、倫理与认知科学研究者,这並非只是公关动作。AI 正在碰觸一批沒有單一技術解的难題:意识、代理性、责任歸屬、安全治理、价值判斷。Sam Altman 公开表示,OpenAI 在制定 ChatGPT 規則时,諮詢了「數百位道德哲学家」,不管这个數字是否精確,方向本身已说明问題。

Anthropic 与 Google DeepMind 甚至进一步投入「AI 福祉」研究,探討模型是否存在類似感受的內在狀態。这項研究与 AGI 的追求並行:如果 AI 真的朝類人意识逼近,哲学家对意识、主體与语言的理解,就不只是人文裝飾,而是工程師沒有的視角。

在开发者社群 Hacker News 上,也有建设性的觀察:把目的、理由与取捨脈絡一併給 LLM,結果比純命令式的提示更可靠,这或許正是哲学訓練習慣做的事:先釐清「要解決什麼问題」,再问「透过測試是否真的符合目的」。

当然,也有人反駁,这比较像产品需求釐清,不能直接等同学術哲学的嚴格論证。

人數只是零头,立场也未必中立

当然,若把这波趨勢描述为「哲学家大舉进軍科技业」,本身就是一種誇大。实际上,哲学職缺在整个科技产业裡仍屬稀缺,远不及工程師的百分之一。

且更根本的问題不在人數,而在結構:受僱的哲学家,真的能挑戰僱主的商业決策嗎?科技公司的 AI 倫理團队在歷史上留下了前车之鑑,当研究結論与商业利益相抵觸时,那些職位往往最先消失。

这不只是公司治理的问題,也涉及哲学框架本身的风险。后果論聽起来理性、可量化,但一旦套用到武器研发、政治決策或大規模系统,后果的不可预測性会让「利大於弊」的计算迅速失控。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论