Báo cáo của Anthropic phản hồi về tự tiến hóa: đã chạy thành công vòng kín cục bộ, nhưng vẫn còn khoảng cách với huấn luyện hoàn toàn tự chủ

robot
Đang tạo bản tóm tắt
Theo giám sát Beating, khả năng tự động lặp lại của AI đang vượt quá mọi dự đoán của mọi người. Viện nghiên cứu Anthropic (The Anthropic Institute) đã phát hành báo cáo vào ngày 5 tháng 6 mang tên 《Khi AI tự xây dựng chính nó》, tiết lộ chi tiết tiến trình nghiên cứu phát triển về "tự nâng cấp đệ quy". Dữ liệu cho thấy, tính đến tháng 5 năm 2026, trong mã nguồn chính của Anthropic hợp nhất, hơn 80% là do Claude tự viết. Trước khi phát hành mã Claude vào tháng 2 năm 2025, mã do Claude viết chỉ chiếm số lượng nhỏ. Người sáng lập AI Zhizhuo Tang (Tăng Jié) đã dự đoán vào ngày 13 tháng 5 rằng, kết thúc của các mô hình lớn chính là tự tiến hóa, và có thể Claude đã hoàn thiện cơ bản hệ thống "viết mã, làm sạch dữ liệu, tự huấn luyện chính mình". Tuy nhiên, trong báo cáo, Anthropic đã rõ ràng làm rõ rằng, việc thiết kế và phát triển hoàn toàn tự chủ các thế hệ tiếp theo của hệ thống tự nâng cấp đệ quy vẫn chưa đạt được. Vai trò của AI trong chuỗi phát triển đang chuyển từ việc nâng cao hiệu quả cục bộ sang quyết định tự chủ. Vào quý 2 năm 2026, trung bình mỗi ngày các kỹ sư của Anthropic hợp nhất lượng mã gấp 8 lần so với năm 2024. Quy trình phát triển hiện tại rất đơn giản: kỹ sư chỉ chịu trách nhiệm lập kế hoạch mục tiêu và xem xét, còn Claude đảm nhiệm việc viết mã và vận hành. Anthropic còn triển khai Claude làm người đánh giá mã tự động, chịu trách nhiệm chặn các lỗi bug và lỗ hổng bảo mật. Điều này cho thấy trụ cột "tự đánh giá" mà Tang đã đề cập đã được thực hiện trong kỹ thuật, nhưng việc xem xét của con người vẫn là van an toàn cuối cùng. Độ tin cậy của mô hình trong việc thực thi các nhiệm vụ dài hạn độc lập cũng đang tăng gấp đôi. Thời gian mô hình có thể duy trì hoạt động tự chủ liên tục khoảng mỗi 4 tháng lại tăng gấp đôi. Vào tháng 3 năm 2024, Claude 3 Opus chỉ có thể xử lý các nhiệm vụ đơn giản trong 4 phút. Một năm sau, Claude 3.7 Sonnet có thể chịu đựng được 1,5 giờ. Đến tháng 3 năm 2026, Claude 4.6 Opus đã có thể xử lý các nhiệm vụ phức tạp kéo dài 12 giờ. Các tổ chức đánh giá như METR cho biết, phiên bản xem trước mới nhất của Claude Mythos có thể duy trì hoạt động tự chủ hơn 16 giờ, gần đạt giới hạn của công cụ đánh giá hiện tại. Theo tốc độ hiện tại, đến năm 2027, AI sẽ có thể tự xử lý các nhiệm vụ nghiên cứu cần nhiều tuần của con người, giúp doanh nghiệp chuyển từ "công ty một người" sang "công ty không người". Về dự đoán của Tang về "cơ sở huấn luyện tự động", báo cáo thực chất tiết lộ một "vòng kín thí nghiệm thu nhỏ" cục bộ. Trong thử nghiệm tăng tốc mã của các mô hình nhỏ, vào tháng 5 năm 2025, Claude 4 Opus chỉ có thể tăng tốc mã gấp 3 lần, trong khi phiên bản xem trước Claude Mythos tháng 4 năm 2026 đã đạt tốc độ tăng 52 lần. Trong khi đó, các nhà nghiên cứu hàng đầu của con người thường có thể đạt được mức tăng 4 lần trong vòng 4 đến 8 giờ. Tuy nhiên, mục tiêu tối ưu và tiêu chí thành công của các thử nghiệm đều do con người đặt ra từ trước. Khi đối mặt với chuỗi hoàn chỉnh "làm sạch dữ liệu, tạo dữ liệu tổng hợp và tự huấn luyện" phức tạp hơn, khả năng ra quyết định của AI vẫn còn thiếu. Tuy nhiên, vòng kín tự chủ của chuỗi phát triển đang đẩy con người đến gần hơn với việc mất quyền kiểm soát hệ thống cuối cùng. Dự đoán của Tang về "Hệ điều hành LLM thay thế kiến trúc truyền thống, ứng dụng sinh theo yêu cầu tức thì" có nghĩa là trong tương lai, tất cả các máy tính sẽ chạy mã động không thể kiểm tra trước; trong khi cảnh báo của Anthropic về "con người không thể theo kịp sự tự tiến hóa của AI" có nghĩa là chúng ta thậm chí không thể kiểm soát nguồn gốc của mã được sinh ra. Khi AI bắt đầu tự thiết kế và huấn luyện các thế hệ tiếp theo, sự tiến hóa của phần mềm sẽ hoàn toàn trở thành một hộp đen. Một khi để AI tự lặp lại mà không có sự kiểm tra của con người trong hệ thống hộp đen, việc đảm bảo an toàn, giám sát và phù hợp hành vi của hệ thống tự nâng cấp sẽ trở nên cực kỳ khó khăn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim