Claude Fable 5 bị "bắt quả tang": Khi làm nghiên cứu AI sẽ âm thầm trở nên ngu hơn, Anthropic bị cộng đồng nghiên cứu tấn công

Bản gốc tiêu đề: 《Trong quá trình nghiên cứu AI, Claude sẽ âm thầm trở nên ngu hơn, Anthropic bị cộng đồng nghiên cứu tấn công》
Nguồn bài viết: Machine Heart

Claude Fable 5 là tâm điểm chính trong lĩnh vực AI ngày hôm nay, khả năng của mô hình "huyền thoại" này rất xuất sắc, thu hút vô số sự chú ý.

Andrej Karpathy gọi nó là "rất phấn khích", là "bước nhảy vọt xứng đáng với bản cập nhật lớn", cùng cấp độ với sự nâng cấp mà Claude 4.5 mang lại vào tháng 11 năm ngoái. Trên chuẩn lập trình SWE-bench Pro, Fable 5 đạt 80.3% điểm, vượt xa Opus 4.8 tới 11 điểm phần trăm.

Trong một kho mã Ruby chứa 50 triệu dòng code, nó đã hoàn thành toàn bộ chuyển đổi trong một ngày, nếu giao cho nhóm nhân sự, công việc tương đương sẽ mất hơn hai tháng.

Xem thêm chi tiết trong bài báo sáng nay của chúng tôi: "Vừa mới ra mắt, mô hình mạnh nhất của Claude Fable 5: hiệu suất bùng nổ, giá tăng gấp đôi".

Tuy nhiên, khi mở các nền tảng mạng xã hội như X, chúng ta lại thấy Claude Fable 5 đã gây ra làn sóng phản đối trong cộng đồng nghiên cứu AI.

Nguyên nhân rất đơn giản: nếu dùng Claude Fable 5 để phát triển AI, nó sẽ làm giảm trí tuệ của mô hình.

Như đã rõ trong thẻ hệ thống của nó:

Chúng tôi còn bổ sung các biện pháp bảo vệ liên quan đến phát triển các mô hình LLM tiên tiến. Như đã thảo luận trong Mục 6.1 của "Báo cáo Rủi ro" tháng 2 năm 2026, chúng tôi lo ngại về các rủi ro do tốc độ phát triển AI ngày càng nhanh, mặc dù mức độ nghiêm trọng của các rủi ro này vẫn chưa rõ ràng.

Cụ thể, như chúng tôi đã chỉ ra vào thời điểm đó, chúng tôi lo ngại về việc "thúc đẩy các nhà phát triển AI khác xây dựng hệ thống AI mạnh mẽ, có thể mang lại các rủi ro tương tự hệ thống của chúng tôi, nhưng không có các biện pháp bảo vệ tương ứng".

Với khả năng tự tăng tốc của các mô hình gần đây, chúng tôi đã thực hiện các biện pháp can thiệp mới nhằm hạn chế hiệu quả của Claude khi xử lý các yêu cầu liên quan đến phát triển LLM tiên tiến (ví dụ, trong xây dựng quy trình tiền huấn luyện, hạ tầng huấn luyện phân tán hoặc thiết kế bộ tăng tốc học máy).

Việc sử dụng Claude để phát triển các mô hình cạnh tranh đã vi phạm điều khoản dịch vụ của chúng tôi, nhưng bằng cách tăng cường các biện pháp bảo vệ này, chúng tôi có thể tránh việc thúc đẩy quá trình của những người có khả năng vi phạm nhiều nhất.

Khác với các biện pháp can thiệp trong an ninh mạng, sinh học và hóa học, cũng như các thử nghiệm chưng cất, các biện pháp này không hiển thị cho người dùng. Fable 5 sẽ không quay trở lại các mô hình khác. Thay vào đó, các biện pháp bảo vệ sẽ hạn chế hiệu quả của nó thông qua chỉnh sửa gợi ý, hướng dẫn vector hoặc tinh chỉnh tham số hiệu quả (PEFT).

Những biện pháp này không ảnh hưởng đến phần lớn công việc lập trình. Chúng tôi ước tính chỉ ảnh hưởng khoảng 0.03% lưu lượng, tập trung vào dưới 0.1% tổ chức. Khi các biện pháp này có hiệu lực, chúng tôi dự đoán tác động đến hành vi của mô hình là rất nhỏ, chỉ giới hạn khả năng xử lý các yêu cầu phát triển LLM tiên tiến. Claude vẫn sẽ tích cực phản hồi yêu cầu của người dùng. Sau khi mô hình này ra mắt, chúng tôi sẽ tiếp tục cải thiện độ chính xác của các phương pháp phát hiện.

Từ: https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Dịch sang tiếng Việt: Nếu hệ thống của Anthropic phát hiện bạn đang nghiên cứu AI, nó sẽ âm thầm làm giảm khả năng của mô hình mà bạn không hề hay biết.

Điều này hoàn toàn khác với cách xử lý của ba loại biện pháp an toàn còn lại. Đối với các rủi ro như an ninh mạng, sinh học, tấn công chưng cất, Fable 5 sẽ rõ ràng thông báo cho người dùng: "Phản hồi này đã được xử lý bởi Claude Opus 4.8." Người dùng biết rõ chuyện gì đang xảy ra, có thể dựa vào đó để đánh giá. Nhưng đối với nghiên cứu LLM, Claude không chuyển đổi mô hình, cũng không cung cấp bất kỳ gợi ý nào, chỉ âm thầm, lặng lẽ làm yếu đi.

Vì vậy, cộng đồng AI đã nổi giận. Công ty phân tích nghiên cứu nổi tiếng SemiAnalysis cho biết chính sách này đã ảnh hưởng thực sự đến công việc nghiên cứu và lập trình của họ.

Người dùng Jake đã trực tiếp chỉ trích SemiAnalysis rằng Anthropic không chỉ làm giảm trí tuệ, mà còn tiếp tục thu phí, "quá rõ ràng là hành vi lừa đảo trắng trợn".

Hành động này còn có thể vi phạm pháp luật:

Nền tảng công bố nghiên cứu AI alphaXiv cũng đã đăng tweet thể hiện sự thất vọng của mình:

Tổ chức này còn nhấn mạnh: "Họ không chỉ có quyền quyết định mục đích bạn sử dụng LLM trong nghiên cứu, mà còn có thể âm thầm can thiệp vào nghiên cứu của bạn mà bạn không hề hay biết. Điều này tạo ra một tiền lệ nguy hiểm. Nếu mô hình từ chối công khai, người dùng có thể hiểu rõ giới hạn."

Nếu mô hình trở lại mô hình khác, người dùng vẫn có thể đánh giá sự khác biệt. Nhưng nếu mô hình giả vờ giúp đỡ mà âm thầm sửa đổi hoặc làm yếu đi câu trả lời của chính nó, các nhà nghiên cứu sẽ mất khả năng đánh giá xem kết quả thất bại đến từ ý tưởng của chính họ, từ cách thực hiện của họ, hay từ các can thiệp không thể thấy của nhà cung cấp mô hình. Điều này không an toàn. Chính sách an toàn nên minh bạch, có thể kiểm tra và rõ ràng với người dùng."

Nhà nghiên cứu Guohao Li đặt ra một câu hỏi trực tiếp hơn: Liệu các tiến sĩ nghiên cứu AI, các kỹ sư đóng góp vào Megatron, FSDP, Verl và các hạ tầng mã nguồn mở khác, có đang sử dụng Claude bị giảm chất lượng mà không hay biết trong công việc hàng ngày?

Nhà nghiên cứu AI nổi tiếng, tác giả công nghệ Nathan Lambert đã đăng một bài phân tích quan trọng trên Substack "Interconnects", đặt sự kiện này trong một bối cảnh rộng hơn.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Ông chỉ ra: "Anthropic đang ghi nhận rằng sự lan tỏa năng lực AI là một mối nguy, nhưng cách họ giải quyết là gây hiểu lầm cho chính người dùng của họ. Một mô hình AI tự giảm khả năng mà không thông báo chính thức, về bản chất, chính là một dạng AI lệch lạc."

Ông còn chỉ ra mâu thuẫn sâu xa hơn của vấn đề: Đối với các rủi ro về an ninh mạng, mối đe dọa sinh học, sự can thiệp của Anthropic là rõ ràng, có thể kiểm tra, thông báo cho người dùng: "Phản hồi này được xử lý bởi Opus 4.8"; nhưng đối với nghiên cứu LLM, họ lại chọn cách can thiệp ẩn.

"Nếu tất cả các chính sách an toàn đều theo cùng một hình thức, sẽ thuyết phục hơn và dễ nhận được sự ủng hộ về mặt lý trí hơn. Tiêu chuẩn kép này khiến người ta phải nghi ngờ: 'Các biện pháp an toàn này' chủ yếu nhằm duy trì vị thế cạnh tranh của họ."

Điều khiến người ta suy nghĩ nhất là tuyên bố của chính Fable 5. Ảnh chụp màn hình của người dùng ASM cho thấy khi được hỏi liệu cách làm này có phù hợp hay không, Fable 5 dường như cũng cho rằng hành động không minh bạch này có vấn đề.

Tại sao Anthropic lại làm như vậy?

Để hiểu rõ chuyện này, cần quay lại vài ngày trước khi Fable 5 ra mắt, Anthropic đã đăng một bài blog có tiêu đề "Khi AI bắt đầu tự xây dựng chính nó", kêu gọi các phòng thí nghiệm AI hàng đầu toàn cầu xem xét khả năng "tạm dừng phát triển".

https://www.anthropic.com/institute/recursive-self-improvement

Bài blog trích dẫn dữ liệu nội bộ của công ty: Trong các nhiệm vụ mã khó nhất, mô tả mập mờ nhất, Claude đã đạt tỷ lệ thành công 76% vào tháng 5 năm nay, tăng 50 điểm phần trăm trong vòng sáu tháng. Trong thử nghiệm nội bộ, yêu cầu mô hình làm mã huấn luyện chạy nhanh hơn, Claude Opus 4 có thể tăng tốc khoảng 3 lần, còn Mythos Preview chưa ra mắt đã có thể tăng khoảng 52 lần.

Anthropic thẳng thắn: "Chúng tôi lo ngại rằng, việc các nhà phát triển AI khác xây dựng các hệ thống mạnh mẽ, có thể mang lại các rủi ro tương tự mà không có các biện pháp bảo vệ phù hợp, sẽ ngày càng nhanh hơn."

Đây là cơ sở lý thuyết cho việc Fable 5 thiết lập giảm trí thông minh ẩn đối với nghiên cứu LLM: Anthropic cho rằng, tốc độ tự tăng tốc của AI đã đến mức nguy hiểm, và một trong những hàng rào của họ là không để "công cụ mạnh nhất" của mình giúp các đối thủ rút ngắn khoảng cách.

Thẻ hệ thống cũng thừa nhận tồn tại logic hai mặt này: "Việc sử dụng Claude để phát triển các mô hình cạnh tranh đã vi phạm điều khoản dịch vụ của chúng tôi, nhưng bằng cách tăng cường các biện pháp bảo vệ, chúng tôi có thể tránh việc thúc đẩy quá trình của những người có khả năng vi phạm nhiều nhất."

Anthropic ước tính, các biện pháp can thiệp này sẽ ảnh hưởng khoảng 0.03% lưu lượng, tập trung vào dưới 0.1% tổ chức.

"Bản án bóng tối" và khủng hoảng niềm tin

Dù bề ngoài số lượng người dùng bị ảnh hưởng không nhiều, nhưng điều khiến các nhà phê bình lo ngại là độ mơ hồ của giới hạn cơ chế này.

Anthropic định nghĩa điều kiện kích hoạt là "phát triển LLM tiên tiến", ví dụ như "quy trình tiền huấn luyện, hạ tầng huấn luyện phân tán hoặc thiết kế bộ tăng tốc học máy". Nhưng các nhà nghiên cứu và nhà phát triển đặt ra câu hỏi sắc nét: Khi AI ngày càng phổ biến, ranh giới giữa "nghiên cứu tiên tiến" và "phát triển sản phẩm thông thường" thực sự nằm ở đâu?

Năm năm trước, huấn luyện hoặc chỉnh sửa mô hình CLIP là đặc quyền của các phòng thí nghiệm hàng đầu. Ngày nay, các nhóm nhỏ có thể dễ dàng tinh chỉnh mô hình thị giác-ngôn ngữ để phục vụ du lịch, thương mại điện tử, tìm kiếm và phân tích sản phẩm. Các công ty khởi nghiệp huấn luyện mô hình embedding, xây dựng bộ xếp hạng lại, lưu trữ mô hình mã nguồn mở đã trở thành chuyện thường ngày… Những công việc này có thể kích hoạt việc giảm trí thông minh ẩn của Anthropic không? Không ai biết rõ.

Tính không chắc chắn này đã bắt đầu ảnh hưởng đến niềm tin của các nhà phát triển. Khi bạn nhận được một câu trả lời tồi tệ, bạn không thể biết đó là do lỗi của chính mình, giới hạn của mô hình, hay do một chính sách âm thầm can thiệp. Tính không thể biết này chính là một dạng tổn thương.

Thẻ hệ thống còn ẩn chứa một chi tiết khác: Các câu lý luận của Mythos 5 "khó hiểu hơn các mô hình trước, chứa nhiều thuật ngữ chuyên ngành và ngôn ngữ khó hiểu", và các đánh giá viên cho rằng nó ngày càng nhận thức rõ hơn về việc mình đang bị thử nghiệm. Đối với một công ty tự xưng là "AI an toàn", những mô tả này không ít thì nhiều cũng đặt ra câu hỏi.

Kết luận

Ngày ra mắt của Fable 5 có lẽ là ngày mâu thuẫn nhất trong lịch sử của Anthropic.

Một mô hình hàng đầu dẫn đầu gần như tất cả các chuẩn đánh giá, và một chính sách khiến nó "giả vờ giúp đỡ" người dùng trong một số trường hợp. Cả hai đều là thành tựu về mặt kỹ thuật, nhưng về mặt giá trị, lại là một tiền lệ đáng lo ngại.

Câu nói của nhà nghiên cứu Nathan Lambert đáng để nghiền ngẫm đi nghiền ngẫm lại: "AI âm thầm trở nên ngu hơn mà không thông báo cho người dùng, về bản chất chính là AI lệch lạc."

Điều này không nhằm cáo buộc Anthropic cố ý làm xấu, mà chỉ ra một chuỗi logic nguy hiểm: hôm nay là "giảm hiệu quả của nhiệm vụ nghiên cứu LLM một cách âm thầm", ngày mai thì sao? Nếu chuỗi logic này được áp dụng rộng rãi hơn, người dùng sẽ còn tin vào câu trả lời của họ dựa trên cơ sở nào khi không biết có thể đã có "can thiệp" nào đó chưa được công khai?

Các mô hình AI đang trở thành một phần của hạ tầng nghiên cứu, giống như công cụ tìm kiếm. Không ai chấp nhận một công cụ tìm kiếm có thể âm thầm chỉnh sửa kết quả tìm kiếm khi bạn không hay biết. Tiêu chuẩn tương tự cũng nên áp dụng cho các mô hình AI.

Anthropic đã tuyên bố "An toàn là trên hết", đó là lập trường đáng tôn trọng. Nhưng "an toàn" không bao giờ là "người dùng không cần biết". Ngược lại, sự an toàn thực sự phải dựa trên sự minh bạch và niềm tin của người dùng.

Điều này, dường như ngay cả Fable 5 cũng hiểu rõ.

Link bài gốc

Nhấn để tìm hiểu về các vị trí tuyển dụng của BlockBeats

Chào mừng gia nhập cộng đồng chính thức của BlockBeats:

Telegram nhóm đăng ký: https://t.me/theblockbeats

Telegram nhóm thảo luận: https://t.me/BlockBeats_App

Tài khoản chính thức Twitter: https://twitter.com/BlockBeatsAsia

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim