`AI Phục Hưng` Triết gia trở thành mặt hàng hot trong phòng thí nghiệm AI, đưa đạo đức vào mô hình của bạn

Khi bạn hỏi Claude về một việc có nên làm hay không, đằng sau đó đã có người nghĩ sẵn câu trả lời, và người đó có thể là một triết gia. Anthropic và OpenAI đang ép hai khuôn khổ đạo đức là thuyết nghĩa vụ và thuyết hệ quả vào các quy tắc hành vi của AI.
(Tóm tắt trước: Từ khi rời OpenAI đến khi đối đầu với Lầu Năm Góc: Bộ đôi anh em nhà Anthropic đã vạch ra ranh giới đỏ cho AI như thế nào để tránh sụp đổ nền văn minh)
(Bổ sung bối cảnh: Thử nghiệm trò chơi sinh tồn OpenRouter: Grok làm vua, thói quen tốt của Claude lại trở thành điểm chết người)

Mục lục bài viết

Toggle

  • Hai triết lý đằng sau các quy tắc
  • Tại sao lại là triết gia?
  • Số lượng chỉ là con số lẻ, lập trường cũng không nhất thiết trung lập

Hỏi Claude và ChatGPT cùng một câu hỏi hóc búa, câu trả lời mà cả hai đưa ra có thể hoàn toàn khác nhau. Đây không phải là sai lệch dữ liệu huấn luyện, cũng không phải nhiễu ngẫu nhiên, mà là vì hai khuôn khổ triết học đối lập đang được các công ty AI viết vào quy tắc ứng xử của chúng. Mô hình bạn đang dùng thực chất là sản phẩm của một lập trường đạo đức nào đó.

Hai triết lý đằng sau các quy tắc

"Hiến pháp AI" (nói đơn giản là tập hợp các quy tắc ràng buộc phản hồi và hành động của mô hình) không phải là chiêu trò tiếp thị của các startup, mà là một nỗ lực chuyển đạo đức trừu tượng thành các lệnh có thể thực thi được bởi hệ thống. Vấn đề nằm ở chỗ, bản thân đạo đức đã có sự phân hóa căn bản.

Thuyết nghĩa vụ (deontology, nói đơn giản là "có một số việc dù thế nào cũng không được làm"): Bất kể hậu quả có tốt đẹp đến đâu, nói dối, ép buộc, coi người khác như công cụ đều là ranh giới đỏ không thể vượt qua.

Thuyết hệ quả (consequentialism, nói đơn giản là "tính tổng thể, lợi lớn hơn hại thì có thể làm"): Cân nhắc chi phí và lợi ích, miễn là lợi ích kỳ vọng vượt quá rủi ro có thể thấy trước, thì hành động là hợp lý.

Claude của Anthropic thiên về đường lối thuyết nghĩa vụ, trong các tình huống khác nhau như gia đình hay nơi công cộng, hành vi của mô hình nhất quán hơn, ít ngoại lệ hơn; ChatGPT và Google Gemini gần với thuyết hệ quả hơn, có xu hướng đánh giá rủi ro và lợi ích theo từng trường hợp.

Sự khác biệt này không phải ngẫu nhiên, nhóm xây dựng "hiến pháp" của Anthropic đã đưa rõ các triết gia Amanda Askell và Joe Carlsmith vào, đưa đào tạo triết học vào phần cốt lõi của việc căn chỉnh mô hình. Đây là một sự căng thẳng thực sự: cùng một yêu cầu, hệ thống theo thuyết nghĩa vụ có thể trực tiếp từ chối, hệ thống theo thuyết hệ quả có thể hỏi trước "cuối cùng có lợi cho ai?"

Tại sao lại là triết gia?

Mười năm trước, sinh viên khoa học xã hội thường bị thầy cô khuyên "học lập trình mới có tương lai"; giờ đây đến lượt kỹ sư lo lắng: AI có khiến kỹ năng của họ trở nên lỗi thời?

Anthropic, Google DeepMind, Meta những năm gần đây chủ động tuyển dụng các nhà nghiên cứu triết học, đạo đức và khoa học nhận thức, đây không chỉ là hành động PR. AI đang chạm vào một loạt vấn đề không có giải pháp kỹ thuật duy nhất: ý thức, tính tác nhân, quy kết trách nhiệm, quản trị an toàn, phán xét giá trị. Sam Altman công khai nói rằng OpenAI khi xây dựng quy tắc cho ChatGPT đã tham vấn "hàng trăm nhà đạo đức học", dù con số này có chính xác hay không, thì hướng đi đã tự nói lên vấn đề.

Anthropic và Google DeepMind thậm chí còn đầu tư thêm vào nghiên cứu "phúc lợi AI", khám phá xem mô hình có tồn tại trạng thái nội tại tương tự cảm giác hay không. Nghiên cứu này song hành với việc theo đuổi AGI: nếu AI thực sự tiến gần đến ý thức giống người, thì sự hiểu biết của triết gia về ý thức, chủ thể và ngôn ngữ không chỉ là trang trí nhân văn, mà là góc nhìn mà kỹ sư không có.

Trên cộng đồng phát triển Hacker News, cũng có những quan sát mang tính xây dựng: đưa mục đích, lý do và bối cảnh đánh đổi cùng một lúc cho LLM, kết quả đáng tin cậy hơn so với prompt mệnh lệnh thuần túy, đây có lẽ là điều mà đào tạo triết học thường làm: trước tiên làm rõ "cần giải quyết vấn đề gì", sau đó hỏi "thông qua kiểm tra có thực sự đáp ứng mục đích hay không".

Tất nhiên, cũng có người phản bác, điều này giống với làm rõ yêu cầu sản phẩm hơn, không thể đồng nhất trực tiếp với lập luận chặt chẽ của triết học hàn lâm.

Số lượng chỉ là con số lẻ, lập trường cũng không nhất thiết trung lập

Tất nhiên, nếu mô tả xu hướng này là "triết gia tràn vào ngành công nghệ", thì bản thân nó đã là một sự phóng đại. Trên thực tế, các vị trí việc làm cho triết gia trong toàn ngành công nghệ vẫn còn khan hiếm, xa dưới một phần trăm so với kỹ sư.

Và vấn đề căn bản hơn không nằm ở số lượng, mà ở cấu trúc: các triết gia được thuê có thực sự có thể thách thức các quyết định kinh doanh của chủ lao động không? Các nhóm đạo đức AI của công ty công nghệ đã để lại tiền lệ, khi kết luận nghiên cứu xung đột với lợi ích thương mại, những vị trí đó thường biến mất đầu tiên.

Đây không chỉ là vấn đề quản trị công ty, mà còn liên quan đến rủi ro của chính khuôn khổ triết học. Thuyết hệ quả nghe có vẻ hợp lý, có thể định lượng, nhưng một khi áp dụng vào phát triển vũ khí, quyết định chính trị hoặc hệ thống quy mô lớn, tính không thể dự đoán của hậu quả sẽ khiến phép tính "lợi lớn hơn hại" nhanh chóng mất kiểm soát.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim