Anthropic đã phát triển mô hình AI mạnh nhất từ trước đến nay, nhưng không dám công bố……

robot
Đang tạo bản tóm tắt

原创 | Odaily 星球日报(@OdailyChina

作者|Azuma(@azuma_eth

Ngày 8 tháng 4, công ty phát triển AI đứng sau Claude là Anthropic đã chính thức công bố sẽ triển khai một kế hoạch mới có tên “Cánh dơi kính” (Project Glasswing). Kế hoạch này sẽ được đồng thời thúc đẩy cùng với nhiều “ông lớn” hàng đầu như Amazon, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA và Palo Alto Networks.

Anthropic cho biết, đây là một nỗ lực khẩn cấp nhằm bảo vệ phần mềm quan trọng nhất trên toàn cầu; các bên sẽ cùng nhau sử dụng phiên bản Mythos Preview để phát hiện và khắc phục các khiếm khuyết tiềm ẩn trong những hệ thống mà thế giới hiện tại đang dựa vào để tồn tại.

Cái gọi là Mythos, là mô hình AI thế hệ tiếp theo mà Anthropic đang phát triển. Đây là mô hình đầu tiên trong lịch sử loài người đạt ngưỡng vượt mốc một trăm tỷ (8B) tham số (so với hiện tại, các mô hình chủ đạo trên thị trường đều có quy mô tham số từ vài trăm tỷ đến mức một nghìn tỷ), và chi phí huấn luyện lên tới con số gây choáng là 10Bỷ USD. So với mô hình mạnh nhất hiện tại của Claude là Opus 4.6, Mythos đều tăng điểm đáng kể trong các bài thử nghiệm như mã hóa phần mềm, suy luận học thuật và an ninh mạng.

Những tin đồn về Mythos đã lan truyền trong thị trường từ tuần trước. Lúc đó, mối quan tâm phổ biến của thị trường là — liệu Mythos, với khả năng chuyên biệt về an ninh mạng, có thể ảnh hưởng đến cục diện phòng thủ-tấn công bảo mật hiện tại hay không? Nếu bị kẻ xấu khai thác ác ý, liệu có gây ra các sự cố an ninh ở quy mô lớn hơn không? Odaily khi đó cũng đã từng đưa tin về việc này, và từng trao đổi với các chuyên gia an ninh trong ngành, nhà sáng lập SlowMist là Yu Xuan (余弦) về tác động tiềm ẩn đối với cuộc đấu tranh phòng thủ-tấn công trong lĩnh vực tiền mã hóa (xem thêm: “Odaily phỏng vấn Yu Xuan: Rò rỉ mô hình mới cấp ‘bom hạt nhân’ của Anthropic, ảnh hưởng thế nào tới cuộc đấu tranh an ninh phòng thủ-tấn công trong tiền mã hóa?”), nhưng lúc đó phía Anthropic vẫn chưa thừa nhận công khai sự tồn tại của Mythos, nên thông tin liên quan vẫn còn rất hạn chế.

Ngày 8 tháng 4, khi kế hoạch “Cánh dơi kính” được công bố, Anthropic cũng đã tiết lộ thêm nhiều chi tiết liên quan tới Mythos. Dựa trên các ví dụ thử nghiệm thực tế do phía Anthropic công bố, năng lực của Mythos không hề bị thổi phồng. Thậm chí công ty còn không dám công bố trực tiếp mô hình này để tránh bị các nhóm tin tặc lợi dụng ác ý. Thay vào đó, công ty dự định trước hết cho các “ông lớn” dùng thử và rà soát thông qua kế hoạch “Cánh dơi kính”, nhằm vá sớm các lỗ hổng tiềm ẩn.

Mythos khoe cơ bắp: chỉ trong vài tuần, phát hiện ra hàng nghìn “lỗ hổng zero-day”

Khi nói về sức mạnh của Mythos, Anthropic cho biết thẳng rằng sự ra đời của mô hình này đồng nghĩa với một thực tế nghiêm trọng đã đến — năng lực mã hóa của các mô hình AI đã đạt tới mức cực cao. Trong việc phát hiện và khai thác lỗ hổng phần mềm, chúng gần như có thể vượt qua tất cả mọi người, trừ những người giỏi nhất của con người.

Theo những gì phía Anthropic tiết lộ, chỉ trong vài tuần ngắn ngủi, Anthropic đã dùng Mythos để nhận diện ra hàng nghìn lỗ hổng zero-day (tức các khiếm khuyết mà ngay cả chính những nhà phát triển phần mềm trước đó cũng chưa từng phát hiện). Trong đó, rất nhiều thuộc nhóm lỗ hổng mức độ cao; vấn đề trải rộng trên mọi hệ điều hành phổ biến và mọi trình duyệt phổ biến, đồng thời còn ảnh hưởng đến một loạt phần mềm quan trọng khác.

Anthropic đưa ra một vài trường hợp tiêu biểu:

  • Mythos phát hiện một lỗ hổng tồn tại trong OpenBSD suốt 27 năm. Hệ thống này vốn được ca ngợi là “cực kỳ an toàn”, được sử dụng rộng rãi cho các hạ tầng then chốt như tường lửa… và lỗ hổng này cho phép kẻ tấn công làm hệ thống sập trực tiếp từ xa;
  • Trong thư viện xử lý video FFmpeg được nhiều phần mềm sử dụng, Mythos tìm thấy một lỗ hổng tồn tại 16 năm. Đoạn mã nằm ở chỗ đó từng bị các bài kiểm thử tự động kích hoạt hơn 5 triệu lần, nhưng vẫn không hề được phát hiện;
  • Mythos cũng có thể tự động liên kết nhiều lỗ hổng trong nhân Linux, nâng quyền từ mức người dùng thông thường lên đến quyền kiểm soát hoàn toàn máy chủ.

Đáng lo ngại hơn, Anthropic cho biết hầu hết các lỗ hổng này là Mythos “tự phát hiện và tự dựng đường đi khai thác” trong gần như không có sự can thiệp của con người. Điều này có thể đồng nghĩa với việc AI đã bắt đầu sở hữu năng lực phòng thủ-tấn công tự động tương tự như các đội hacker hàng đầu.

Trong các chuẩn đánh giá benchmark, Mythos cũng thể hiện sự tiến hóa vượt bậc so với Opus 4.6. Ví dụ, trong bài kiểm thử tái hiện lỗ hổng an ninh mạng, Mythos đạt 83.1%, còn Opus 4.6 là 66.6%; trong nhiều bài kiểm thử về mã hóa và suy luận khác, điểm của Mythos cũng tạo ra khoảng cách dẫn đầu đáng kể.

Có lẽ chính vì năng lực của Mythos quá mạnh, Anthropic đã không chọn mở trực tiếp mô hình, mà thay vào đó trước tiên cho ra mắt kế hoạch “Cánh dơi kính”, để toàn bộ Internet được “gia cố” sớm.

Thông qua kế hoạch này, Anthropic sẽ mở sớm phiên bản Mythos Preview cho các bên tham gia, để phát hiện và khắc phục các lỗ hổng hoặc điểm yếu trong hệ thống nền tảng của họ — tập trung chủ yếu vào các nhiệm vụ như phát hiện lỗ hổng cục bộ, kiểm thử hộp đen cho chương trình nhị phân, gia cố bảo mật cho thiết bị đầu cuối, và kiểm thử xâm nhập hệ thống.

Anthropic cũng cam kết sẽ cung cấp cho các bên tham gia tổng cộng 100 triệu USD hạn mức sử dụng mô hình, nhằm hỗ trợ việc dùng trong toàn bộ giai đoạn nghiên cứu xem trước. Sau đó, phiên bản Mythos Preview sẽ được mở cho các bên tham gia với mức giá tương ứng 25 USD / 125 USD cho mỗi 8B token đầu vào / đầu ra (các bên tham gia cũng có thể truy cập mô hình này thông qua Claude API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry). Ngoài hạn mức sử dụng mô hình, Anthropic còn thông qua Linux Foundation để tài trợ 2.5 triệu USD cho Alpha-Omega và OpenSSF, đồng thời tài trợ 1.5 triệu USD cho Apache Software Foundation, nhằm giúp các nhà bảo trì phần mềm mã nguồn mở ứng phó với môi trường an ninh luôn thay đổi.

Anthropic dự định mở rộng dần phạm vi tham gia của “Cánh dơi kính”, đồng thời tiếp tục thúc đẩy trong nhiều tháng, và chia sẻ kinh nghiệm trong chừng mực có thể để các tổ chức khác có thể áp dụng kinh nghiệm liên quan cho công tác xây dựng an ninh của chính họ. Trong vòng 90 ngày, Anthropic sẽ công bố báo cáo tiến độ theo từng giai đoạn, bao gồm các lỗ hổng đã được sửa và các biện pháp cải thiện an ninh có thể công bố.

Công nghệ sẽ chỉ liên tục được nâng cấp, nhưng cũng không cần phải lo quá nhiều

AI đang thay đổi không thể đảo ngược thế giới mà chúng ta vẫn quen thuộc, trong đó có lĩnh vực an ninh mạng mà bài viết này tập trung. Khi ngưỡng để phát hiện và khai thác lỗ hổng bị hạ thấp đáng kể, người ta không khỏi lo lắng rằng liệu AI sẽ trở thành lưỡi dao trong tay những kẻ hành động độc ác, đe dọa sự cân bằng an ninh mạng hiện có hay không? (PS: đối với người dùng tiền mã hóa cần phải đưa tiền thật vào hệ thống ví hoặc các giao thức trên chuỗi, mối lo này sẽ đặc biệt mãnh liệt.)

Trước câu hỏi đó, Anthropic cho rằng “chúng ta vẫn có lý do để lạc quan”. Lý do AI nguy hiểm là vì chúng có năng lực gây hại trong tay những kẻ bất lương. Nhưng đồng thời, AI cũng có giá trị không thể đo đếm đối với việc phát hiện và khắc phục các khiếm khuyết quan trọng của phần mềm, cũng như phát triển các phần mềm mới an toàn hơn.

Có thể thấy trước rằng, trong những năm tới, năng lực của AI vẫn sẽ tiếp tục tiến hóa nhanh chóng. Nhưng khi những phương thức tấn công mới xuất hiện, thì các cơ chế phòng thủ mới cũng sẽ đồng thời được triển khai. Việc nâng cấp công nghệ là điều không thể tránh khỏi, nhưng điều đó không có nghĩa là rủi ro chắc chắn sẽ mất kiểm soát — miễn là hệ thống phòng thủ cũng tiến hóa đồng bộ, thậm chí có thể dùng AI để xây dựng “hào lũy” an ninh kiên cố hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim