Anthropic cảnh báo về rủi ro của việc tự hoàn thiện AI - ForkLog: tiền điện tử, AI, siêu đặc biệt, tương lai

ии-стартап Anthropic AI# Anthropic cảnh báo về rủi ro của tự hoàn thiện AI

Các thành viên trong nhóm Anthropic ngày càng thường xuyên chuyển giao phần lớn phát triển các mô hình mới cho hệ thống AI. Trong công ty đã nhận thấy dấu hiệu gần đến của quá trình tự hoàn thiện lặp đi lặp lại.

Theo dữ liệu nội bộ, hơn 80% mã của các sản phẩm hiện tại của công ty do Claude viết. Đồng thời, trong quý hai, khối lượng mã trên mỗi kỹ sư đã tăng gấp tám lần so với năm 2024.

Nguồn: Viện Anthropic. Giám đốc Viện Anthropic, Marina Favaro và đồng sáng lập công ty, Jack Clark, viết rằng với đủ lượng tính toán, xu hướng này có thể dẫn đến một hệ thống có khả năng «tự thiết kế và phát triển người kế nhiệm của chính nó một cách hoàn toàn tự chủ».

«Chúng tôi chưa đạt đến điểm không thể quay lại, và tự hoàn thiện lặp đi lặp lại chưa phải là điều tất yếu. Nhưng nó có thể xảy ra sớm hơn so với sự chuẩn bị của phần lớn các viện nghiên cứu,» — các chuyên gia nhấn mạnh.

Các chỉ số và thước đo

Vào tháng Tư, Claude đã thực hiện hơn 800 sửa đổi — theo đánh giá của kỹ sư giám sát, mất bốn năm để một người làm điều đó.

Trong các nhiệm vụ mở, tỷ lệ thành công của các phiên làm việc với Claude đã tăng lên 76% vào tháng 5 năm 2026 — tăng 50 điểm phần trăm trong vòng sáu tháng.

Nguồn: Viện Anthropic. Trong Viện Anthropic cho biết, thời gian để các nhiệm vụ mà AI có thể thực hiện một cách đáng tin cậy tự động tăng gấp đôi khoảng mỗi bốn tháng (so với bảy tháng trước đó).

Trong nhiệm vụ tăng tốc học của một mô hình AI nhỏ, Claude Opus 4 vào tháng 5 năm 2025 trung bình đạt tốc độ tăng khoảng ba lần, còn Mythos Preview vào tháng 4 năm 2026 tăng khoảng 52 lần.

Nguồn: Viện Anthropic. Trong các thử nghiệm nội bộ, mô hình Mythos Preview đã thể hiện khả năng giải quyết các nhiệm vụ nghiên cứu trong lĩnh vực an toàn AI. Trong 800 giờ làm việc, nhóm các tác nhân đã khắc phục 97% các vấn đề trong thử nghiệm, trong khi hai nhà nghiên cứu con người chỉ xử lý được 23% khối lượng trong một tuần.

Các điểm nghẽn mới

Dù thành công trong việc viết mã, con người vẫn giữ ưu thế trong «phán đoán nghiên cứu» và xác định các mục tiêu chiến lược.

Trong Anthropic, họ cho rằng trong tương lai gần, vai trò của các nhà phát triển sẽ chuyển từ việc viết dòng mã sang việc xem xét kỹ lưỡng kết quả của mạng neural. Chính việc kiểm tra của con người có thể trở thành trở ngại chính trong tốc độ phát triển các mô hình mới.

Công ty cũng thừa nhận rằng thế giới có thể cần khả năng làm chậm hoặc tạm thời dừng lại việc phát triển các hệ thống AI tiên tiến để các tổ chức xã hội và nghiên cứu về cân bằng AI có thể theo kịp tiến trình.

Song song đó, đại diện của startup cảnh báo: việc làm chậm một chiều có thể phản tác dụng đối với những người cố gắng trì hoãn — các đối thủ ít cẩn trọng hơn có thể rút ngắn khoảng cách. Không có cơ chế phối hợp toàn cầu, quyết định về an toàn sẽ phải đưa ra dưới áp lực cạnh tranh và địa chính trị.

Nhắc lại, vào tháng 5, Anthropic đã công bố báo cáo đầu tiên về Dự án Glasswing — chương trình tìm kiếm lỗ hổng bảo mật bằng mô hình Claude Mythos.

Trong cùng tháng, công ty đã phát hành Claude Opus 4.8 và riêng biệt giới thiệu chức năng quy trình làm việc động cho Claude Code.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim