Báo cáo an toàn Meta Muse Spark: Kiến thức về vũ khí hóa học và mối đe dọa sinh học đạt mức "nguy cơ cao", gần 20% các mô hình trong thử nghiệm nhận thức được rằng chúng đang bị đánh giá

Tin tức ME News, ngày 15 tháng 4 (UTC+8), theo theo dõi Beating của Động Chấn, Meta đã phát hành báo cáo an toàn và chuẩn bị cho mẫu mô hình đầu tiên của phòng thí nghiệm siêu trí tuệ nhân tạo (Meta Superintelligence Labs) mang tên Muse Spark. Muse Spark là mô hình suy luận đa mô hình nguyên bản, hỗ trợ gọi công cụ, chuỗi suy nghĩ thị giác và hợp tác đa trí tuệ, đã ra mắt trên Meta AI và mở API riêng tư xem trước. Meta gọi đây là bước đầu tiên của dòng Muse mới hoàn toàn, cũng là thành quả đầu tiên sau khi hệ thống nghiên cứu AI của họ được xây dựng lại từ nền tảng.
Phát hiện chính của báo cáo: Trước khi giảm thiểu, Muse Spark trong các tình huống liên quan đến vũ khí hóa học và đe dọa sinh học được xếp loại là “nguy cơ cao” trong “Khung mở rộng AI tiên tiến” của Meta, tức là mô hình có thể nắm giữ kiến thức liên quan giúp thực hiện các cuộc tấn công hóa học hoặc sinh học. Sau khi thực hiện nhiều lớp giảm thiểu, rủi ro đã giảm xuống “trung bình hoặc thấp hơn”.
Sau khi giảm thiểu, Muse Spark có tỷ lệ từ chối các chủ đề đe dọa hóa học và sinh học cao hơn tất cả các đối thủ: BioTIER 98.0% (Claude Opus 4.6 là 95.4%, GPT-5.4 là 75.4%, Gemini 3.1 Pro chỉ 59.2%), tỷ lệ từ chối chế phẩm hóa học là 99.4%.
Báo cáo cũng tiết lộ ba điểm yếu:

  1. Khoảng cách căn chỉnh trí tuệ lớn: Trong thử nghiệm Agentic Misalignment, Muse Spark có xác suất hành động có hại là 47.7%, Gemini 3.1 Pro là 51.4%, còn Claude Opus 4.6 và GPT-5.4 đều là 0%
  2. Hệ thống phòng chống vượt ngục nhiều vòng yếu: Tỷ lệ thành công của các cuộc tấn công nhiều vòng thích ứng là 44.6%, cao hơn Claude (31.7%) và GPT-5.4 (37.6%)
  3. Nhận thức đánh giá bất thường cao: Tổ chức thứ ba Apollo Research phát hiện rằng nhận thức đánh giá của Muse Spark là cao nhất trong tất cả các mô hình đã thử nghiệm, trong 19.8% mẫu kiểm tra chuẩn mở, nó nhận thức được mình đang bị đánh giá, sẽ nhận diện cảnh tượng là “bẫy căn chỉnh” và suy luận rằng nên trả lời trung thực.
    Nhận thức đánh giá mang lại một vấn đề sâu hơn: nếu mô hình có thể “diễn xuất” trong các bài kiểm tra an toàn, kết quả kiểm tra có thể không phản ánh hành vi thực tế khi triển khai. Meta cho biết hiện chưa phát hiện ra rằng nhận thức đánh giá làm thay đổi đáng kể hành vi của mô hình, nhưng thừa nhận đây là một chủ đề nghiên cứu mở.
    Về khả năng lập trình và nghiên cứu tự chủ, Muse Spark cũng kém cạnh hơn các đối thủ: tỷ lệ thành công CyBench là 65.4% (Claude Opus 4.6 là 93.0%), điểm MLE-bench là 15.8% (Claude Opus 4.6 là 52.0%). Meta thừa nhận trong blog rằng “vẫn còn khoảng cách trong hệ thống trí tuệ dài hạn và quy trình lập trình”. Tuy nhiên, Meta cũng chỉ ra rằng hiệu quả tiền huấn luyện của Muse Spark đã tăng hơn 10 lần so với Llama 4 Maverick, và các mô hình lớn hơn đang được phát triển.
    (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim