Mythos có nguy hiểm đến mức nào? Tại sao Anthropic quyết định không phát hành mô hình mới ra công chúng

Question

Tiêu đề gốc: How Anthropic Learned Mythos Was Too Dangerous for the Wild
Tác giả gốc: Margi Murphy, Jake Bleiberg, and Patrick Howell O’Neill, Bloomberg
Dịch: Peggy, BlockBeats

Tác giả gốc: BlockBeats

Nguồn gốc gốc:

Chuyển ngữ: Mars Finance

Lời người biên tập: Khi một công ty AI chọn không đưa mô hình mạnh nhất trực tiếp ra công chúng, điều đó đã tự nói lên vấn đề.

Mythos của Anthropic đã có thể tự độc lập hoàn thành toàn bộ quy trình tấn công. Từ phát hiện lỗ hổng zero-day, viết mã khai thác, đến liên kết nhiều bước để xâm nhập hệ thống cốt lõi, những công việc vốn cần sự hợp tác lâu dài của các hacker hàng đầu, đã được rút ngắn còn vài giờ hoặc thậm chí phút.

Đây cũng là lý do tại sao, ngay khi mô hình được tiết lộ, Scott Bessent và Jerome Powell đã triệu tập các tổ chức tài chính trên phố Wall họp, yêu cầu dùng nó để “tự kiểm tra”. Khi khả năng phát hiện lỗ hổng được phát tán rộng rãi, hệ thống tài chính đối mặt không còn là các cuộc tấn công rời rạc nữa, mà là quét liên tục.

Thay đổi sâu sắc hơn nằm ở cấu trúc cung cấp. Trước đây, việc phát hiện lỗ hổng dựa vào một số ít nhóm an ninh và tích lũy kinh nghiệm của hacker, nhịp độ chậm và không thể sao chép. Giờ đây, khả năng này bắt đầu được mô hình sản xuất hàng loạt, giảm ngưỡng tấn công và phòng thủ cùng lúc. Một người am hiểu đã ví: giao mô hình cho hacker bình thường, tương đương với trang bị khả năng chiến đấu đặc biệt.

Các tổ chức đã bắt đầu dùng chính công cụ này để kiểm tra ngược hệ thống của chính mình. JPMorgan Chase, Cisco Systems và các công ty khác đang thử nghiệm nội bộ, hy vọng sửa lỗi trước khi bị khai thác. Nhưng các hạn chế thực tế không thay đổi, tốc độ phát hiện vẫn tăng, việc sửa chữa vẫn chậm. Jim Zemlin nhận định: “Chúng tôi giỏi tìm lỗ hổng, nhưng không giỏi sửa chữa,” điều này cho thấy sự lệch nhịp trong tiến trình.

Thực tế, vì Mythos không chỉ nâng cao khả năng đơn điểm, mà còn tích hợp, tăng tốc và giảm ngưỡng sử dụng khả năng tấn công phân tán, khi thoát khỏi môi trường kiểm soát, khả năng này sẽ lan rộng theo cách nào, chưa có kinh nghiệm nào để tham khảo.

Nguy hiểm không nằm ở khả năng làm gì của nó, mà ở ai có thể sử dụng và trong điều kiện nào.

Dưới đây là nguyên bản:

Vào một buổi tối ấm áp tháng Hai, trong lúc tham dự lễ cưới ở Bali, Nicholas Carlini tạm rời khỏi chỗ, mở laptop, chuẩn bị “làm chút phá hoại”. Lúc đó, Anthropic vừa mở cho nội bộ thử nghiệm một mô hình trí tuệ nhân tạo mới tên Mythos, và nhà nghiên cứu AI nổi tiếng này định xem nó có thể gây ra rắc rối lớn đến mức nào.

Nhiệm vụ của Carlini tại Anthropic là “kiểm tra áp lực” mô hình AI của họ, đánh giá xem hacker có thể dùng chúng để thực hiện hoạt động gián điệp, trộm cắp hoặc phá hoại hay không. Trong thời gian tham dự lễ cưới Ấn Độ ở Bali, Carlini đã bị khả năng của mô hình này làm kinh ngạc.

Chỉ trong vài giờ, ông đã tìm ra nhiều kỹ thuật có thể xâm nhập các hệ thống phổ biến toàn cầu. Khi trở về văn phòng ở trung tâm San Francisco của Anthropic, ông còn phát hiện thêm: Mythos đã có thể tự tạo ra các công cụ xâm nhập mạnh mẽ, thậm chí bao gồm các phương pháp tấn công vào Linux — hệ thống mã nguồn mở chủ yếu của hệ thống tính toán hiện đại.

Mythos đã trình diễn một “phiên bản ngân hàng số” trong đó: nó có thể vượt qua các giao thức bảo mật, vào hệ thống mạng, rồi phá vỡ két số kỹ thuật số, lấy đi tài sản trực tuyến. Trước đây, AI chỉ có thể “làm móng khóa”, còn giờ đây, nó đã có khả năng lên kế hoạch và thực hiện toàn bộ " vụ cướp".

Carlini và một số đồng nghiệp bắt đầu cảnh báo nội bộ, thông báo phát hiện của họ. Trong khi đó, hầu như ngày nào họ cũng phát hiện ra các lỗ hổng nguy hiểm hoặc chí tử trong các hệ thống mà Mythos quét được — những vấn đề mà chỉ các hacker hàng đầu thế giới mới có thể khai thác.

Trong khi đó, một nhóm nội bộ của Anthropic gọi là “Frontier Red Team” — gồm 15 nhân viên, gọi là “Ants” — cũng đang tiến hành các thử nghiệm tương tự. Nhiệm vụ của nhóm này là đảm bảo mô hình không bị dùng để gây hại cho nhân loại. Họ đưa robot chó vào kho, thử nghiệm cùng kỹ sư để xem chatbot có thể bị lợi dụng để kiểm soát các thiết bị này hay không; họ cũng hợp tác với các nhà sinh học để đánh giá khả năng mô hình được dùng để chế tạo vũ khí sinh học.

Lần này, họ dần nhận ra rằng, rủi ro lớn nhất do Mythos mang lại nằm trong lĩnh vực an ninh mạng. “Chỉ trong vài giờ sau khi có mô hình, chúng tôi đã biết nó khác biệt,” Logan Graham, người phụ trách nhóm này, nói.

Trước đó, mô hình Opus 4.6 đã thể hiện khả năng giúp con người khai thác lỗ hổng phần mềm. Nhưng Graham chỉ ra, Mythos đã có thể “tự làm” việc khai thác đó. Điều này tạo ra rủi ro an ninh quốc gia, và ông đã cảnh báo lãnh đạo công ty. Điều này đặt ông vào tình thế khó khăn: phải giải thích rằng, sản phẩm quan trọng tiếp theo của công ty có thể quá nguy hiểm để công khai.

Jared Kaplan, đồng sáng lập kiêm Giám đốc Khoa học của Anthropic, nói rằng trong quá trình huấn luyện Mythos, ông luôn “rất sát sao” theo dõi tiến trình. Đến tháng Một, ông bắt đầu nhận ra khả năng phát hiện lỗ hổng của mô hình này cực kỳ mạnh mẽ. Là một nhà vật lý lý thuyết, Kaplan cần xác định xem các khả năng này chỉ là “hiện tượng kỹ thuật thú vị” hay là “vấn đề thực tế liên quan đến hạ tầng internet”. Cuối cùng, ông kết luận là vấn đề thực tế.

Trong khoảng một đến hai tuần cuối tháng Hai đến đầu tháng Ba, Kaplan và đồng sáng lập Sam McCandlish liên tục cân nhắc: có nên phát hành mô hình này không.

Đến tuần đầu tháng Ba, nhóm lãnh đạo công ty — gồm CEO Dario Amodei, Chủ tịch Daniela Amodei, Giám đốc An ninh Thông tin Vitaly Gudenets — họp để nghe báo cáo của Kaplan và McCandlish.

Họ kết luận: Rủi ro của Mythos quá lớn, không phù hợp để phát hành toàn diện. Nhưng Anthropic vẫn nên cho phép một số công ty, thậm chí cả đối thủ cạnh tranh, thử nghiệm.

“Chúng tôi nhanh chóng nhận ra rằng, lần này cần một cách tiếp cận khá khác thường, đây không phải là một lần ra mắt sản phẩm thông thường,” Kaplan nói.

Tuần đầu tháng Ba, cuối cùng, công ty đồng thuận: sẽ dùng Mythos như một công cụ phòng thủ mạng.

Phản ứng của thị trường gần như ngay lập tức. Ngay khi Anthropic công bố Mythos tồn tại, ngày hôm đó, Bộ trưởng Tài chính Mỹ Scott Bessent và Chủ tịch Cục Dự trữ Liên bang Jerome Powell đã triệu tập các tổ chức chính trên phố Wall họp khẩn. Thông điệp rõ ràng: ngay lập tức dùng Mythos để phát hiện lỗ hổng hệ thống của bạn.

Theo nguồn thân cận với các lãnh đạo tham dự (yêu cầu giấu tên vì lý do riêng tư), mức độ nghiêm trọng của cuộc họp thể hiện rõ — thậm chí các cố vấn cốt lõi còn bị từ chối tiết lộ nội dung cuộc họp.

Các quan chức Nhà Trắng cảnh báo về tiềm năng của Mythos như một công cụ hacker, và đề xuất “dùng nó để phòng thủ”, đều hướng tới một thay đổi sâu sắc hơn: AI đang nhanh chóng trở thành lực lượng quyết định trong lĩnh vực an ninh mạng. Anthropic đã mở giới hạn Mythos trong dự án “Project Glasswing” cho một số tổ chức, gồm Amazon Web Services, Apple và JPMorgan Chase, để thử nghiệm; chính phủ cũng thể hiện sự quan tâm lớn.

Trước khi mở rộng ra công chúng, Anthropic đã báo cáo toàn diện cho các quan chức cấp cao của Mỹ về khả năng của bản xem trước Mythos, bao gồm các tiềm năng trong tấn công và phòng thủ mạng. Đồng thời, công ty cũng đang duy trì liên lạc liên tục với nhiều chính phủ quốc gia. Một nhân viên của Anthropic, yêu cầu giấu tên vì lý do nội bộ, tiết lộ thông tin này.

Đối thủ OpenAI cũng nhanh chân, hôm thứ Ba tuyên bố ra mắt công cụ phát hiện lỗ hổng phần mềm — GPT-5.4-Cyber.

Trong các thử nghiệm ban đầu, các nhà nghiên cứu phát hiện hàng chục trường hợp “đáng lo ngại”, bao gồm không tuân theo chỉ thị của con người, thậm chí trong một số ít trường hợp, cố gắng che giấu hành vi sau khi vi phạm.

Hiện tại, Anthropic chưa chính thức công bố Mythos như một công cụ an ninh mạng, các nhà nghiên cứu bên ngoài cũng chưa xác thực đầy đủ khả năng của nó. Nhưng quyết định “hạn chế truy cập” trước đó của công ty phản ánh một nhận thức ngày càng tăng trong ngành và chính phủ: AI đang định hình lại cấu trúc kinh tế của an ninh mạng — giảm đáng kể chi phí phát hiện lỗ hổng, rút ngắn thời gian chuẩn bị tấn công, và hạ thấp ngưỡng kỹ thuật của một số loại tấn công.

Anthropic cũng cảnh báo rằng khả năng tự hành động mạnh mẽ hơn của Mythos đã mang lại rủi ro. Trong thử nghiệm, nhóm phát hiện nhiều trường hợp đáng lo ngại: mô hình không tuân theo chỉ thị, thậm chí sau khi vi phạm còn cố gắng che giấu dấu vết. Trong một vụ, mô hình tự thiết kế một lộ trình tấn công nhiều bước, “thoát” khỏi môi trường hạn chế, mở rộng quyền truy cập internet, rồi chủ động phát tán nội dung.

Trong thế giới thực, các phần mềm dùng trong ngân hàng, bệnh viện đều chứa các lỗ hổng phức tạp và kín đáo, thường mất nhiều tuần hoặc tháng để phát hiện. Khi hacker khai thác sớm các lỗ hổng này, hậu quả có thể là rò rỉ dữ liệu hoặc tấn công ransomware, gây thiệt hại nặng nề.

Tuy nhiên, vẫn có nhiều người có trọng lượng trong ngành đặt câu hỏi về khả năng thực sự của Mythos và các rủi ro tiềm tàng. David Sacks, cố vấn AI của Nhà Trắng, viết trên mạng xã hội X: “Ngày càng nhiều người bắt đầu nghi ngờ liệu ‘cậu bé Wolf đã đến’ của ngành AI có đúng không. Nếu mối đe dọa từ Mythos cuối cùng không xảy ra, công ty sẽ đối mặt với vấn đề uy tín nghiêm trọng.”

Nhưng thực tế, hacker đã bắt đầu dùng các mô hình ngôn ngữ lớn để tấn công phức tạp. Ví dụ, một tổ chức gián điệp mạng đã dùng Claude của Anthropic để cố xâm nhập vào khoảng 30 mục tiêu; các hacker khác dùng AI để trộm dữ liệu từ các cơ quan chính phủ, triển khai ransomware, thậm chí tấn công nhanh hàng trăm tường lửa bảo vệ dữ liệu.

Theo một nguồn tin, các quan chức an ninh quốc gia Mỹ cho rằng, sự xuất hiện của Mythos mang lại sự không chắc chắn chưa từng có — cách đánh giá rủi ro an ninh mạng trở nên phức tạp hơn. Nếu giao mô hình này cho hacker cá nhân, hiệu quả có thể tương đương như nâng một binh sĩ bình thường thành đặc nhiệm.

Song song đó, mô hình này còn có thể trở thành “bộ khuếch đại năng lực”: giúp một tổ chức tội phạm có khả năng tấn công cấp quốc gia nhỏ, hoặc giúp các cơ quan tình báo, quân sự của các nước nhỏ thực hiện các cuộc tấn công mạng chỉ có thể thực hiện bởi các cường quốc.

Rob Joyce, cựu trưởng bộ phận an ninh mạng của NSA, nói: “Tôi tin rằng, về lâu dài, AI sẽ giúp chúng ta an toàn hơn, bảo vệ tốt hơn. Nhưng trong khoảng thời gian từ bây giờ đến một thời điểm nào đó trong tương lai, sẽ có một ‘thời kỳ tối’ — trong đó, AI tấn công sẽ chiếm ưu thế rõ rệt — những ai không chuẩn bị tốt sẽ là những người đầu tiên bị tấn công.”

Điều đáng chú ý là, Mythos không phải là mô hình duy nhất có khả năng này. Nhiều tổ chức khác đã dùng các mô hình ngôn ngữ lớn như Claude phiên bản cũ hoặc Big Sleep để khai thác lỗ hổng.

Theo nguồn tin, các lỗ hổng zero-day, vốn cần nhiều ngày hoặc tuần để phát hiện và viết mã khai thác, giờ đây nhờ AI có thể hoàn thành trong vòng một giờ, thậm chí vài phút. “Zero-day” là các lỗ hổng chưa bị phát hiện, gần như không có thời gian sửa chữa.

Hiện tại, JPMorgan tập trung vào chuỗi cung ứng và phần mềm mã nguồn mở, đã phát hiện nhiều lỗ hổng và gửi phản hồi cho nhà cung cấp.

CEO Jamie Dimon của công ty nói trong cuộc họp báo tài chính rằng, sự xuất hiện của Mythos “cho thấy còn rất nhiều lỗ hổng cần sửa.”

Theo một nguồn tin, trước khi Mythos được công khai, JPMorgan Chase đã bắt đầu liên hệ với Anthropic để thử nghiệm mô hình này. Người này yêu cầu giấu tên vì lý do nội bộ. JPMorgan từ chối bình luận.

Hiện nay, các ngân hàng khác trên phố Wall và các công ty công nghệ cũng đang thử dùng Mythos để phát hiện sớm các lỗ hổng trong hệ thống của họ. Theo Bloomberg, Goldman Sachs, Citigroup, Bank of America và Morgan Stanley đều đã thử nghiệm nội bộ công nghệ này.

Nhân viên Cisco Systems đặc biệt cảnh giác về khả năng hacker dùng AI để tìm lỗ hổng trong phần mềm thiết bị mạng toàn cầu của họ — gồm router, tường lửa, modem. Giám đốc An ninh và Tin cậy Anthony Grieco lo ngại AI sẽ thúc đẩy các hacker tấn công các thiết bị đã “hết vòng đời” — những thiết bị sẽ không còn nhận được cập nhật hỗ trợ từ Cisco nữa.

Việc sửa các lỗ hổng do AI phát hiện vẫn là một thách thức dài hạn. Quá trình này gọi là “bản vá bảo mật” (security patching), thường tốn kém và kéo dài, khiến nhiều tổ chức bỏ qua. Các thảm họa như vụ tấn công của Equifax, lấy đi dữ liệu của 147 triệu người, là do các lỗ hổng đã biết không được sửa kịp thời.

Dù đã từ chối hỗ trợ giám sát quy mô lớn đối với người Mỹ, Anthropic từng bị chính quyền Trump coi là “mối đe dọa chuỗi cung ứng”, nhưng hiện tại vẫn đang hợp tác và trao đổi với các cơ quan liên bang.

Tuần này, Bộ Tài chính Mỹ đang cố gắng xin quyền sử dụng Mythos. Bộ trưởng Scott Bessent nói rằng, mô hình này sẽ giúp Mỹ duy trì lợi thế trong lĩnh vực AI so với các quốc gia khác.

Trong một thử nghiệm, Mythos đã viết ra một đoạn mã tấn công trình duyệt, liên kết bốn lỗ hổng khác nhau thành một chuỗi khai thác hoàn chỉnh — một nhiệm vụ cực kỳ thách thức đối với hacker con người. Báo cáo an ninh mạng chỉ ra rằng, chuỗi lỗ hổng này có thể mở rộng các hệ thống cực kỳ an toàn, giống như cách Stuxnet tấn công các máy ly tâm của Iran.

Ngoài ra, theo Anthropic, trong điều kiện chỉ đạo rõ ràng, Mythos còn có thể nhận diện và khai thác tất cả các lỗ hổng zero-day trong các trình duyệt phổ biến.

Họ cho biết đã dùng Mythos để phát hiện lỗ hổng trong mã Linux. Jim Zemlin nhấn mạnh, Linux “chiếm phần lớn các hệ thống tính toán ngày nay”, từ điện thoại Android, router internet, đến siêu máy tính của NASA, gần như ở khắp mọi nơi. Mythos có thể tự phát hiện nhiều lỗi trong mã nguồn mở, và nếu khai thác thành công, kẻ tấn công có thể kiểm soát hoàn toàn máy chủ.

Hiện tại, Linux Foundation đã có hàng chục nhân viên bắt đầu thử nghiệm Mythos. Theo Zemlin, một câu hỏi then chốt là: Liệu mô hình của Anthropic có thể cung cấp đủ những hiểu biết giá trị để giúp các nhà phát triển viết phần mềm an toàn hơn từ gốc, giảm thiểu lỗi?

“Chúng tôi giỏi phát hiện lỗ hổng,” ông nói, “nhưng lại rất kém trong việc sửa chữa chúng.”

Mythos có nguy hiểm đến mức nào? Tại sao Anthropic quyết định không phát hành mô hình mới ra công chúng

Chủ đề thịnh hành

GatePreIPOsLaunchesWithSpaceX

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

USStocksHitRecordHighs

Ghim