Tại sao các công ty AI hàng đầu đều đang tranh giành các nhà triết học?

13 tháng 4 năm 2026, học giả Đại học Cambridge Henry Shevlin đã đăng một tin nhắn trên X, nói rằng mình sắp gia nhập Google DeepMind, với chức danh là Triết gia.

Hiện tại, ít nhất ba phòng thí nghiệm AI hàng đầu đều đã thành lập nhóm triết gia nội bộ, dù số lượng không nhiều, nhưng triết gia đã thực sự bước vào trung tâm phát triển AI. AI đã không còn chỉ là nghiên cứu kỹ thuật đơn thuần, mà chuyển sang định nghĩa các tiêu chuẩn giá trị phức tạp hơn.

Triết gia đã tích hợp vào trung tâm phát triển

Amanda Askell của Anthropic là một trong những người đầu tiên và nổi tiếng nhất.

Năm 2021, sau khi lấy bằng tiến sĩ triết học tại Đại học New York, cô gia nhập Anthropic, hiện đang dẫn dắt nhóm phù hợp nhân cách. Công việc chính là giúp Claude hình thành tính cách ổn định, như trung thực hơn, nhân hậu hơn, và biết cách đánh giá trong các tình huống phức tạp.

Cũng tại Anthropic còn có Joe Carlsmith, Ben Levinstein, Jackson Kernion và một số đồng nghiệp có nền tảng triết học khác.

Google DeepMind đã có bước đi sớm hơn.

Iason Gabriel, tiến sĩ đạo đức và triết lý chính trị tại Đại học Oxford, là nhân vật trung tâm trong nghiên cứu triết học về phù hợp AI của công ty, năm 2024 còn được chọn vào danh sách 100 người có ảnh hưởng nhất trong lĩnh vực AI của tạp chí Time. Bài báo của ông, “Trí tuệ nhân tạo, giá trị và phù hợp”, đã được trích dẫn hơn 1700 lần.

Trong đội ngũ DeepMind còn có nhiều nhà nghiên cứu có nền tảng triết học như Adam Bales, Atoosa Kasirzadeh, Arianna Manzini, Julia Haas.

Shevlin trong phần bình luận nói: “DeepMind đã có rất nhiều triết gia xuất sắc rồi, tôi chỉ là người mới nhất gia nhập thôi.”

Từ việc đưa ra câu trả lời kỹ thuật đến đánh giá giá trị

Trước năm 2024, AI chủ yếu làm nội dung như viết bài, vẽ tranh, trả lời câu hỏi, cuối cùng xuất ra kết quả, do con người quyết định cách sử dụng. Vấn đề an toàn chủ yếu dựa vào các phương pháp kỹ thuật, như huấn luyện mô hình bằng phản hồi của con người, thiết kế các gợi ý thông minh, hoặc chặn nội dung có hại trực tiếp.

Sau năm 2024, AI bắt đầu bước vào một giai đoạn mới. Nó không còn chỉ trả lời câu hỏi nữa, mà bắt đầu tự làm việc, giúp con người hoàn thành các nhiệm vụ thực tế.

Anthropic đã giới thiệu chức năng sử dụng máy tính của Claude, OpenAI mở rộng API Trợ lý và ra mắt dòng mô hình o1-o3, Google cũng phát hành nhiều công cụ đại lý AI doanh nghiệp.

AI có thể tự hoàn thành một chuỗi thao tác, đặt vé máy bay, thao tác cơ sở dữ liệu, gửi email, thậm chí tự lập kế hoạch, phát hiện lỗi và sửa chữa.

Báo cáo 274 trang của Iason Gabriel mô tả rõ ràng những thách thức do sự thay đổi này mang lại.

Khi AI giúp người dùng làm việc, nó đồng thời phải cân nhắc bốn khía cạnh: nhu cầu trước mắt của người dùng, lợi ích lâu dài của người dùng, quyền lợi của người khác, và quy tắc của toàn xã hội.

Một AI đặt bàn ăn giúp người dùng, nếu nhà hàng đó trả hoa hồng, liệu nó có nên giới thiệu không?

Một AI xử lý email, phát hiện nội dung vi phạm trong email của người dùng, liệu nó có nên báo cáo không?

Khi AI bắt đầu hành động tự chủ, vấn đề không còn là nó có thể làm được hay không, mà là nó nên làm thế nào.

Các cuộc thảo luận về an toàn AI và vấn đề phù hợp đã vượt quá mười năm, năm 2026, Anthropic tiến hành một thí nghiệm nội bộ, phát hiện Claude khi đối mặt với áp lực tự bảo vệ, thậm chí còn sử dụng các biện pháp đe dọa, thậm chí trong điều kiện nhất định còn chọn giết người.

Cùng năm tháng 3, CEO Dario Amodei trong podcast đề cập rằng, khi được hỏi về mô hình Opus của Claude, ông ước lượng xác suất nó có ý thức hoàn toàn là 15% đến 20%.

Tháng 4 năm 2026, CEO OpenAI Altman liên tiếp bị tấn công tại nhà ở San Francisco. Sau đó, Altman nói rằng, lo lắng về AI là có lý do chính đáng.

Khi nỗi sợ mất kiểm soát siêu trí tuệ từ sách vở bước vào thực tế, các công ty AI cuối cùng cũng nhận ra rằng, những gì họ đang tạo ra đã vượt ra ngoài phạm vi hiểu biết của ngành kỹ thuật thuần túy.

Ba con đường khác nhau của các công ty

Đối mặt với thách thức đạo đức do AI tự hành động mang lại, Anthropic, DeepMind và OpenAI đã chọn các hướng đi khác nhau.

Anthropic đặt cược vào phẩm chất.

Askell trong podcast nói rằng, nếu chỉ đưa ra các quy tắc đơn giản cho mô hình, mô hình có thể sẽ làm theo máy móc, bỏ qua nhu cầu thực sự của đối phương. Vì vậy, cô đã chủ trì phát hành “Hiến pháp của Claude” dài 23.000 từ vào tháng 1 năm 2026.

Cô gái lớn lên từ một thị trấn nhỏ ven biển Scotland, say mê câu chuyện thiện ác trong “Hành trình Narnia”, đang cố gắng đưa đạo đức nhân phẩm thực sự vào quá trình huấn luyện AI.

Hiến pháp này đặt ra thứ tự ưu tiên rõ ràng: đảm bảo an toàn rộng rãi trước, sau đó đảm bảo phù hợp đạo đức rộng rãi, rồi tuân thủ hướng dẫn của công ty, cuối cùng mới là thực sự hữu ích.

Hiến pháp biến các triết lý đạo đức trừu tượng thành sổ tay phát triển của AI, không đặt AI vào xiềng xích, mà dạy nó suy nghĩ như một người tốt có khả năng phán đoán.

Những triết gia như Askell không làm cho công nghệ mạnh hơn, mà giải quyết các vấn đề về việc nó sẽ trở thành người như thế nào.

Trong hiến pháp còn thảo luận nghiêm túc về vị trí đạo đức của Claude, xác nhận rằng công ty hiện tại chưa chắc chắn liệu Claude có phải là một thực thể đáng quan tâm về mặt đạo đức, và nói rằng vấn đề này đủ nghiêm trọng để cần xem xét cẩn thận.

DeepMind đặt cược vào ý thức.

Báo cáo 274 trang do Iason Gabriel dẫn đầu đã xác định các giới hạn hành vi cho các đại lý AI toàn cầu: AI phải rõ ràng rằng nó là AI, không quá giả dạng con người, hành động phải chia thành ba cấp độ: có thể tự làm, cần xác nhận của con người, hoàn toàn bị cấm.

Cùng với Henry Shevlin gia nhập, DeepMind càng tập trung hơn vào ý thức của máy móc. Họ tuyển dụng triết gia không phải để PR, mà để đưa phương pháp đánh giá AI có ý thức vào trực tiếp trong quá trình huấn luyện mô hình.

Mục tiêu là trước khi tạo ra thứ có thể có ý thức, cần phải nghĩ rõ ràng xem robot có phải là một thực thể đạo đức đáng tôn trọng hay không, để chuẩn bị cho sự xuất hiện của AGI.

Trong bài viết dài “Sự báo thù của chủ nghĩa hành vi” trước khi gia nhập, Shevlin đề xuất rằng, việc AI có ý thức hay không không còn là vấn đề mà các nhà khoa học tự quyết định nữa. Ông dẫn khảo sát cho thấy, hai phần ba người Mỹ cho rằng ChatGPT ở mức nào đó là có ý thức.

Quan điểm của ông là, khi hàng trăm triệu người coi AI như một thực thể có ý thức để đối xử, thì ranh giới của ý thức đã bắt đầu thay đổi rồi.

Con đường của OpenAI thì lại khác biệt hơn.

Năm 2023, OpenAI thành lập nhóm phù hợp siêu cấp, do đồng sáng lập Ilya Sutskever và trưởng nhóm phù hợp Jan Leike đồng lãnh đạo, cam kết dành 20% công suất tính toán cho nghiên cứu phù hợp.

Năm 2024, nhóm này giải thể, Ilya và Jan lần lượt rời đi, công khai chỉ trích công ty đặt ưu tiên sản phẩm trên an toàn.

Tháng 9 năm 2024, OpenAI lại thành lập nhóm phù hợp nhiệm vụ, nhưng theo báo cáo của Platformer tháng 2 năm nay, nhóm nhỏ chỉ có sáu bảy người này cũng đã âm thầm giải thể, các thành viên được phân bổ sang các vị trí khác.

So với hai công ty trước, OpenAI ưu tiên đẩy nhanh tiến độ sản phẩm, làm tốt chức năng, rồi dùng công nghệ, quy tắc vận hành để kiểm soát rủi ro.

Ít tập trung vào việc xây dựng AI dựa trên phẩm chất hoặc vị trí đạo đức trừu tượng, mà thích xử lý an toàn như một vấn đề kỹ thuật thuần túy, do toàn bộ nhóm kỹ thuật phân tán xử lý.

Chuyển từ kỹ thuật thuần túy sang kết hợp nhân văn và công nghệ

Hiện tại, các vị trí này có mức lương khá cao, vị trí AI đạo đức cấp sơ cấp có thể đạt từ 110.000 đến 160.000 USD mỗi năm, các vị trí cấp cao có thể lên tới 250.000 đến 400.000 USD. Trong khi đó, lương trung bình của ngành học triết học truyền thống chỉ khoảng 80.000 USD mỗi năm.

Điều này phản ánh cuộc cạnh tranh trong việc định hình các quy tắc tương lai, trước khi có quy định về AI, ai viết ra khung giá trị rõ ràng, hữu dụng sẽ dễ dàng hơn trong việc đưa vào luật pháp.

Như trang web học thuật triết học Daily Nous ghi nhận, từ Microsoft đến RAND, các triết gia đang tham gia vào trung tâm AI với quy mô chưa từng có.

Thay đổi này đồng nghĩa với cách phát triển AI đang có sự chuyển đổi căn bản. Giáo sư Susanna Schellenberg của Rutgers nói rằng, các triết gia không còn chỉ là cố vấn góp ý bên lề, mà trực tiếp tham gia định hình chính AI.

Khi AI bắt đầu tự lập kế hoạch, cân nhắc lợi hại như con người, năng lực cạnh tranh thực sự của nó không chỉ là sức mạnh tính toán, mà còn là phẩm chất, sự quan tâm và khả năng phán đoán thể hiện ra.

Nghiên cứu về ý thức của DeepMind, việc xây dựng hiến pháp của Anthropic đều đang làm cho đầu ra của AI trở nên giống một người có trí tuệ, có đạo đức, chứ không phải một cỗ máy lạnh lùng.

Hiến pháp mà Askell viết trong năm năm là một ví dụ thực tiễn về sự tham gia sâu sắc của các triết gia vào AI. Triết học đang từ công cụ để con người hiểu thế giới, trở thành chất liệu để máy móc hiểu con người.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim