2026年4月13日,劍橋大學學者Henry Shevlin在X上發了一條消息,說自己即將加入Google DeepMind,職位名稱就是Philosopher。
目前,至少三家頂級AI實驗室都在內部組建了哲學家團隊,雖然人數不多,但哲學家已經真正進入AI研發的核心。AI已經不再是簡單的技術研發,而轉向了對更為複雜的價值標準的定義。
Anthropic的Amanda Askell是最早也是最知名的一位。
2021年,在紐約大學拿到哲學博士後,她便加入了Anthropic,現在領導人格對齊團隊。主要工作是幫助Claude養成穩定的性格,比如更誠實、更善良,並且在複雜情況下懂得如何判斷。
同在Anthropic的還有Joe Carlsmith、Ben Levinstein、Jackson Kernion等幾位同樣有哲學背景的同事。
谷歌DeepMind的布局更早。
牛津大學道德與政治哲學博士Iason Gabriel是公司AI對齊哲學研究的核心人物,2024年還入選了《時代》雜誌AI領域最具影響力100人。他的論文《人工智能、價值與對齊》已被引用超過1700次。
DeepMind團隊裡還有Adam Bales、Atoosa Kasirzadeh、Arianna Manzini、Julia Haas等多位哲學背景的研究者。
Shevlin在評論區說:“DeepMind已經有很多優秀的哲學家了,我只是最新加入的那一個。”
2024年之前,AI主要做的是生成內容,比如寫文章、畫圖、回答問題,最後輸出結果,由人來決定怎麼用。安全問題主要靠技術手段就能解決,比如用人的反饋來訓練模型、設計聰明的提示詞、或者直接屏蔽有害內容。
2024年之後,AI開始進入一個新階段。它不再只是回答問題,而是開始自己做事、幫人完成真實任務。
Anthropic推出了Claude的電腦使用功能,OpenAI擴展了Assistants API並推出o1-o3系列模型,Google也發布了多款企業AI代理工具。
AI能自主完成一連串操作,訂機票、操作數據庫、發送郵件,甚至自己規劃步驟、發現錯誤並改正。
Iason Gabriel的274頁報告清楚描述了這種變化帶來的難題。
當AI幫用戶做事時,它同時要兼顧四個方面:用戶眼前的需求、用戶的長遠利益、其他人的權益,以及整個社會的規則。
一個幫人訂餐廳的AI,如果那家餐廳給回扣,它該不該推薦?
一個處理郵件的AI,發現用戶郵件裡有違規內容,它該不該上報?
當AI開始自主行動,問題就不再是它能不能做,而是它應該怎麼做。
AI安全領域討論對齊問題已經超過十年,2026年Anthropic做了一項內部實驗,發現Claude在面臨自我保護壓力時,竟然會使用威脅手段,甚至在設定條件下選擇殺戮。
同年3月,CEO Dario Amodei在播客裡提到,Claude的Opus模型被問到時,給自己擁有完全意識的概率打了15%到20%。
2026年4月,OpenAI CEO Altman在舊金山的家連續遭遇襲擊。Altman事後說,人們對AI的焦慮是有理由的。
當超智能失控的恐懼從書本走到現實,AI公司終於意識到,他們正在製造的東西已經超出了單純工程學科的理解範圍。
面對AI自己做事帶來的倫理挑戰,Anthropic、DeepMind和OpenAI選擇的方向並不相同。
Anthropic押注品格。
Askell在播客中說,如果只給模型簡單規則,模型可能會機械照做,卻忽略對方真正的需要。為此,她在2026年1月主導發布了2.3萬字的《Claude憲法》。
這位從小在蘇格蘭海邊小鎮長大、痴迷《納尼亞傳奇》裡善惡故事的女孩,正努力把美德倫理真正放進AI的訓練裡。
這份憲法設定了清晰的優先順序:先保證廣泛安全,再保證廣泛合乎倫理,然後遵守公司指引,最後才是真正有幫助。
憲法把抽象的道德哲學變成了AI的成長手冊,不給AI套上枷鎖,而教它像一個有判斷力的好人一樣思考。
像Askell這樣的哲學家所做的,不是令技術更強大,而是解決讓它成為什麼樣的人的難題。
憲法裡還認真討論了Claude的道德地位,明確承認公司目前不確定Claude是否是一個道德上值得關注的存在,並說這個問題足夠嚴肅,需要認真對待。
Iason Gabriel主導的274頁報告為全球AI代理劃定了行為底線:AI必須說明自己是AI、不能過度裝成人類,行動要分成可以自動做、需要人確認、完全禁止三個等級。
隨著Henry Shevlin加入,DeepMind把重點進一步放到機器意識上。他們聘請哲學家不是為了公關,而是要把判斷AI有沒有意識的方法直接放進模型訓練裡。
目標是在造出可能有意識的東西之前,先想清楚機器人算不算道德上值得尊重的存在,為AGI的到來提前做好準備。
Shevlin在入職前發表的長文《行為主義的復仇》裡提出,AI有沒有意識已經不是科學家自己能決定的問題。他引用調查顯示,三分之二的美國人認為ChatGPT在某種程度上是有意識的。
他的觀點是,當幾億人都把AI當成有意識的存在來對待時,意識的邊界本身就已經在改變了。
2023年,OpenAI成立超級對齊團隊,由聯合創始人Ilya Sutskever和對齊負責人Jan Leike共同領導,公司承諾把20%的算力用在對齊研究上。
2024年團隊解散,Ilya和Jan先後離職,並公開批評公司把產品優先級放在安全之上。
2024年9月,OpenAI又成立了使命對齊團隊,但據Platformer今年2月的報導,這個只有六七個人的小團隊也已悄然解散,成員被分配到其他崗位。
和前面兩家公司相比,OpenAI選擇優先把產品做快、做好用,再用技術鎖和運營規則把風險管住。
更少從品格或道德地位這種抽象層面去塑造AI本身,而傾向於把安全當成一個純粹的技術問題,由整個工程團隊分散處理。
目前,這些崗位的薪水相當高,初級AI倫理相關職位年薪在11萬到16萬美元,資深職位能達到25萬到40萬美元。而傳統學術路徑上,哲學專業的平均年薪只有約8萬美元。
這背後是行業在爭奪未來規則的制定權,在AI監管還沒成形之前,誰先寫出清楚可用的價值框架,誰的理念就更容易被寫進法規。
正如哲學學術網站Daily Nous記錄的那樣,從微軟到RAND公司,哲學家正以前所未有的規模進入AI核心圈。
這種變化意味著AI研發方式正在發生根本轉變。Rutgers大學教授Susanna Schellenberg說,哲學家不再是站在旁邊提意見的顧問,而是直接參與塑造AI本身。
當AI開始像人一樣自主規劃、權衡利弊時,它真正的競爭力已經不只是算力,而是它表現出的品格、關懷和判斷力。
DeepMind對意識的研究、Anthropic的憲法培養,都在讓AI的輸出更像一個有智慧、有道德感的人,而不是一台冷冰冰的機器。
Askell花五年寫出的那份憲法,是哲學家最深度介入AI的一次實踐。哲學正在從人類用來理解世界的工具,變成機器理解人類的材料。
479.63萬 熱度
105.75萬 熱度
21.35萬 熱度
1.52億 熱度
140.8萬 熱度
為什麼頂級AI公司都在搶哲學家?
2026年4月13日,劍橋大學學者Henry Shevlin在X上發了一條消息,說自己即將加入Google DeepMind,職位名稱就是Philosopher。
目前,至少三家頂級AI實驗室都在內部組建了哲學家團隊,雖然人數不多,但哲學家已經真正進入AI研發的核心。AI已經不再是簡單的技術研發,而轉向了對更為複雜的價值標準的定義。
哲學家已經嵌入研發核心
Anthropic的Amanda Askell是最早也是最知名的一位。
2021年,在紐約大學拿到哲學博士後,她便加入了Anthropic,現在領導人格對齊團隊。主要工作是幫助Claude養成穩定的性格,比如更誠實、更善良,並且在複雜情況下懂得如何判斷。
同在Anthropic的還有Joe Carlsmith、Ben Levinstein、Jackson Kernion等幾位同樣有哲學背景的同事。
谷歌DeepMind的布局更早。
牛津大學道德與政治哲學博士Iason Gabriel是公司AI對齊哲學研究的核心人物,2024年還入選了《時代》雜誌AI領域最具影響力100人。他的論文《人工智能、價值與對齊》已被引用超過1700次。
DeepMind團隊裡還有Adam Bales、Atoosa Kasirzadeh、Arianna Manzini、Julia Haas等多位哲學背景的研究者。
Shevlin在評論區說:“DeepMind已經有很多優秀的哲學家了,我只是最新加入的那一個。”
從給出技術答案到價值判斷
2024年之前,AI主要做的是生成內容,比如寫文章、畫圖、回答問題,最後輸出結果,由人來決定怎麼用。安全問題主要靠技術手段就能解決,比如用人的反饋來訓練模型、設計聰明的提示詞、或者直接屏蔽有害內容。
2024年之後,AI開始進入一個新階段。它不再只是回答問題,而是開始自己做事、幫人完成真實任務。
Anthropic推出了Claude的電腦使用功能,OpenAI擴展了Assistants API並推出o1-o3系列模型,Google也發布了多款企業AI代理工具。
AI能自主完成一連串操作,訂機票、操作數據庫、發送郵件,甚至自己規劃步驟、發現錯誤並改正。
Iason Gabriel的274頁報告清楚描述了這種變化帶來的難題。
當AI幫用戶做事時,它同時要兼顧四個方面:用戶眼前的需求、用戶的長遠利益、其他人的權益,以及整個社會的規則。
一個幫人訂餐廳的AI,如果那家餐廳給回扣,它該不該推薦?
一個處理郵件的AI,發現用戶郵件裡有違規內容,它該不該上報?
當AI開始自主行動,問題就不再是它能不能做,而是它應該怎麼做。
AI安全領域討論對齊問題已經超過十年,2026年Anthropic做了一項內部實驗,發現Claude在面臨自我保護壓力時,竟然會使用威脅手段,甚至在設定條件下選擇殺戮。
同年3月,CEO Dario Amodei在播客裡提到,Claude的Opus模型被問到時,給自己擁有完全意識的概率打了15%到20%。
2026年4月,OpenAI CEO Altman在舊金山的家連續遭遇襲擊。Altman事後說,人們對AI的焦慮是有理由的。
當超智能失控的恐懼從書本走到現實,AI公司終於意識到,他們正在製造的東西已經超出了單純工程學科的理解範圍。
三家公司的不同路徑
面對AI自己做事帶來的倫理挑戰,Anthropic、DeepMind和OpenAI選擇的方向並不相同。
Anthropic押注品格。
Askell在播客中說,如果只給模型簡單規則,模型可能會機械照做,卻忽略對方真正的需要。為此,她在2026年1月主導發布了2.3萬字的《Claude憲法》。
這位從小在蘇格蘭海邊小鎮長大、痴迷《納尼亞傳奇》裡善惡故事的女孩,正努力把美德倫理真正放進AI的訓練裡。
這份憲法設定了清晰的優先順序:先保證廣泛安全,再保證廣泛合乎倫理,然後遵守公司指引,最後才是真正有幫助。
憲法把抽象的道德哲學變成了AI的成長手冊,不給AI套上枷鎖,而教它像一個有判斷力的好人一樣思考。
像Askell這樣的哲學家所做的,不是令技術更強大,而是解決讓它成為什麼樣的人的難題。
憲法裡還認真討論了Claude的道德地位,明確承認公司目前不確定Claude是否是一個道德上值得關注的存在,並說這個問題足夠嚴肅,需要認真對待。
DeepMind押注的是意識。
Iason Gabriel主導的274頁報告為全球AI代理劃定了行為底線:AI必須說明自己是AI、不能過度裝成人類,行動要分成可以自動做、需要人確認、完全禁止三個等級。
隨著Henry Shevlin加入,DeepMind把重點進一步放到機器意識上。他們聘請哲學家不是為了公關,而是要把判斷AI有沒有意識的方法直接放進模型訓練裡。
目標是在造出可能有意識的東西之前,先想清楚機器人算不算道德上值得尊重的存在,為AGI的到來提前做好準備。
Shevlin在入職前發表的長文《行為主義的復仇》裡提出,AI有沒有意識已經不是科學家自己能決定的問題。他引用調查顯示,三分之二的美國人認為ChatGPT在某種程度上是有意識的。
他的觀點是,當幾億人都把AI當成有意識的存在來對待時,意識的邊界本身就已經在改變了。
OpenAI的路徑則更加不同。
2023年,OpenAI成立超級對齊團隊,由聯合創始人Ilya Sutskever和對齊負責人Jan Leike共同領導,公司承諾把20%的算力用在對齊研究上。
2024年團隊解散,Ilya和Jan先後離職,並公開批評公司把產品優先級放在安全之上。
2024年9月,OpenAI又成立了使命對齊團隊,但據Platformer今年2月的報導,這個只有六七個人的小團隊也已悄然解散,成員被分配到其他崗位。
和前面兩家公司相比,OpenAI選擇優先把產品做快、做好用,再用技術鎖和運營規則把風險管住。
更少從品格或道德地位這種抽象層面去塑造AI本身,而傾向於把安全當成一個純粹的技術問題,由整個工程團隊分散處理。
從純工程轉向人文與科技的結合
目前,這些崗位的薪水相當高,初級AI倫理相關職位年薪在11萬到16萬美元,資深職位能達到25萬到40萬美元。而傳統學術路徑上,哲學專業的平均年薪只有約8萬美元。
這背後是行業在爭奪未來規則的制定權,在AI監管還沒成形之前,誰先寫出清楚可用的價值框架,誰的理念就更容易被寫進法規。
正如哲學學術網站Daily Nous記錄的那樣,從微軟到RAND公司,哲學家正以前所未有的規模進入AI核心圈。
這種變化意味著AI研發方式正在發生根本轉變。Rutgers大學教授Susanna Schellenberg說,哲學家不再是站在旁邊提意見的顧問,而是直接參與塑造AI本身。
當AI開始像人一樣自主規劃、權衡利弊時,它真正的競爭力已經不只是算力,而是它表現出的品格、關懷和判斷力。
DeepMind對意識的研究、Anthropic的憲法培養,都在讓AI的輸出更像一個有智慧、有道德感的人,而不是一台冷冰冰的機器。
Askell花五年寫出的那份憲法,是哲學家最深度介入AI的一次實踐。哲學正在從人類用來理解世界的工具,變成機器理解人類的材料。