Claude có 80% mã nguồn do chính mình viết, Anthropic kêu gọi "các cơ chế phanh toàn cầu" có thật không?

Question

Anthropic Viện Nghiên cứu phát hành bài viết dài 5000 từ 《When AI Builds Itself》 vào ngày 4 tháng 6, tiết lộ rằng Claude đã viết hơn 80% mã hợp nhất của riêng công ty, AI có thể tự xử lý các nhiệm vụ phần mềm kéo dài tới 12 giờ, năng suất của kỹ sư tăng gấp 8 lần so với năm 2024, và chính thức kêu gọi xây dựng cơ chế "đóng băng hoặc tạm dừng có thể xác minh" trên toàn cầu.
(Phần tóm tắt trước: Khi Anthropic phát hành Mythos, có phải là thời điểm bùng nổ của DeFi không?)
(Bổ sung nền: 10 năm thù hận: Nếu OpenAI không giả vờ giả vịt, thì sẽ không có sức mạnh của Anthropic)

Mục lục bài viết

Chuyển đổi

AI đang tự tiến hóa
Lần trước dừng lại là GPT-2 năm 2019
Sau IPO là lương tâm?
Công cụ nhanh hơn, không tự quyết định đóng đinh gì
Chính Anthropic không tin điều đó sẽ xảy ra
Hiệp ước hạt nhân trong thời đại AI không còn khả thi

Tóm tắt chính

Claude viết hơn 80% mã hợp nhất của Anthropic, năng suất kỹ sư mỗi quý tăng gấp 8 lần so với năm 2024
AI có thể tự xử lý nhiệm vụ kéo dài từ 4 phút (2024/3) lên 12 giờ (2026/3), chu kỳ tăng gấp đôi rút ngắn còn 4 tháng
Ngày 1/6, Anthropic nộp hồ sơ IPO với định giá 965 tỷ USD, ngày 4/6 kêu gọi xây dựng cơ chế tạm dừng AI toàn cầu

Vào ngày 4 tháng 6, Viện Nghiên cứu Anthropic phát hành một bài viết dài 5000 chữ 《When AI Builds Itself》. Mở đầu, họ đưa ra một con số: đến tháng 5 năm 2026, Claude đã viết hơn 80% mã hợp nhất trong kho mã của sản phẩm Anthropic. Trước khi Claude Code ra mắt vào đầu năm 2025, tỷ lệ này chỉ là số thấp.

Sau đó, bài viết cũng kêu gọi "chúng tôi cho rằng, thế giới tốt nhất nên có một lựa chọn, để khi cần thiết, có thể giảm tốc hoặc tạm dừng phát triển AI tiên tiến."

AI đang tự tiến hóa

Anthropic giải thích về đường cong khả năng nâng cấp của Claude.

Tháng 3 năm 2024, Claude Opus 3 có thể tự xử lý một nhiệm vụ phần mềm mất khoảng bốn phút của con người.

Tháng 3 năm 2025, Claude Sonnet 3.7 nâng con số này lên chín mươi phút.

Tháng 3 năm 2026, Claude Opus 4.6 đạt tới mười hai giờ.

Đây không phải là tăng trưởng tuyến tính, chu kỳ nhân đôi thời gian nhiệm vụ từ bảy tháng rút ngắn còn bốn tháng.

Trong nội bộ, Anthropic đã khảo sát 130 thành viên nhóm nghiên cứu, yêu cầu họ ước lượng mức tăng năng suất nhờ Mythos Preview, trung vị là bốn lần.

Về mặt lượng hóa kỹ thuật, trung bình mỗi kỹ sư hợp nhất mã trong mỗi quý từ quý 2 năm 2024 đến quý 2 năm 2026 đã tăng gấp 8 lần. Sản lượng mã gần như không đổi từ 2021 đến 2024, rồi bắt đầu tăng mạnh từ 2025.

Tháng 4 năm 2026, Claude tự xử lý hơn 800 lỗi API, giảm tỷ lệ lỗi của một loại lỗi xuống gấp nghìn lần. Một kỹ sư ước tính, cùng lượng công việc này nếu giao cho con người sẽ mất bốn năm.

Các số liệu từ phía nghiên cứu cũng gây sốc, hai nhà nghiên cứu con người mất một tuần để phục hồi 23% khoảng cách hiệu suất trong một vấn đề an toàn AI. Nhóm Claude đã tiêu tốn 800 giờ tích lũy, sử dụng khoảng 18.000 USD năng lượng tính toán, để phục hồi 97%.

Tính đến tháng 5 năm 2026, chất lượng mã do Claude tạo ra đã ngang bằng với kỹ sư con người. Theo lời của Anthropic, "đến cuối năm 2025, mã của Claude còn kém hơn con người, giờ đã ngang bằng, dự kiến trong vòng một năm sẽ vượt trội hơn người."

Lần trước dừng lại là GPT-2 năm 2019

Tháng 2 năm 2019, OpenAI phát hành GPT-2, tuyên bố "quá nguy hiểm, chưa thể công khai đầy đủ." Mô hình này có 1,5 tỷ tham số, có thể viết ra đoạn tiếng Anh trôi chảy một nửa.

Sau bảy năm, mô hình từng bị coi là quá nguy hiểm đó, nay tương đương với một ứng dụng điện thoại miễn phí cơ bản.

Mỗi lần phòng thí nghiệm tiên phong dừng hoặc cảnh báo nguy hiểm, đều chứng minh hai điều: thứ nhất, nguy hiểm là có thật. Thứ hai, những người kêu gọi dừng thực sự không dừng.

OpenAI sau khi phát hành GPT-2 chín tháng đã công khai mô hình đầy đủ. Google năm 2023 tuyên bố AI cần "tạm dừng có trách nhiệm", chưa đầy một năm đã ra mắt Gemini Ultra.

Nhưng lần này, Anthropic đưa ra một con số cụ thể, đồng sáng lập Jack Clark cho biết, ông nghĩ khả năng AI tự cải tiến vòng lặp sẽ đạt 60% trước cuối năm 2028.

IPO sau là lương tâm?

Những người chỉ trích không nể nang, Noah Giansiracusa, giáo sư toán học tại Bentley University, nói với Scientific American: "Tôi không nghĩ đây là ý định thực sự của Anthropic muốn giảm tốc." Ông chỉ ra rằng Dario Amodei thực tế là muốn tiến nhanh, vì "tạm dừng trong thực tế là không thể thực hiện, xác suất bằng không."

Hơn nữa, mô hình đã tự tiến hóa rồi, còn dừng làm gì nữa?

Giáo sư Mark Riedl của Georgia Tech nói thẳng hơn, các công ty AI lớn đều nhảy lên tàu "tự cải tiến vòng lặp" để thổi phồng.

Phân tích sắc nét hơn là, nếu Anthropic kêu gọi toàn cầu tạm dừng phát triển AI tiên tiến, mà thành công, thì chính là giữ vững vị trí dẫn đầu của họ trong cạnh tranh. Điều này có thể là một hành động thiện chí đột ngột của công ty niêm yết, hoặc là một chiến lược PR chính xác, chúng ta biết khả năng thứ nhất không cao.

Công cụ nhanh hơn, không tự quyết định đóng đinh gì

Giáo sư Gary Marcus của NYU là một trong những người chỉ trích gay gắt nhất. Ông viết trên Substack rằng, bài viết của Anthropic là một "chiêu trò đánh lừa" (bait and switch), khi ghép hai thứ hoàn toàn khác nhau vào chung một câu chuyện.

Thứ nhất là AGI (trí tuệ nhân tạo tổng quát), giả định AI có thể tự hoàn thành mọi việc con người làm. Thứ hai là thực tế hiện tại, AI như một công cụ mã hóa cực nhanh và tốt, giúp nhân viên kỹ thuật tăng năng suất gấp đôi.

Marcus lập luận, tất cả dữ liệu mà Anthropic trình bày đều thuộc về loại thứ hai. Claude thực sự viết ra 80% mã, nhưng phần đó là trong khung khổ do con người đặt mục tiêu, chỉ định hướng, kiểm duyệt kết quả. Nó là một chiếc búa cực nhanh, nhưng búa không tự quyết định đóng đinh vào đâu.

Một công cụ mã hóa nhanh hơn có thể không hủy diệt thế giới.

Phê phán này có hợp lý không? Một phần có. Dữ liệu của chính Anthropic cũng chứng minh quan điểm của Marcus: tỷ lệ chính xác của Claude trong "lựa chọn hướng nghiên cứu tiếp theo" từ tháng 11 năm 2025 là 51%, đến tháng 4 năm 2026 là 64%. Có tiến bộ, nhưng 64% nghĩa là mỗi ba lần, hơn một lần chọn sai hướng.

Thực sự, tự cải tiến vòng lặp cần không phải là viết mã nhanh hơn, mà là quyết định "viết gì". Trước đó, Claude đã làm tốt hơn đa số con người. Còn phần này, con người vẫn còn "ưu thế" hơn.

Một nhân viên ẩn danh của Anthropic nói: "Ưu thế của con người hiện nay là nhìn thấy bức tranh lớn hơn, suy nghĩ vượt ra ngoài nhiệm vụ hiện tại."

Ưu thế của con người không biết sẽ duy trì được bao lâu.

Anthropic không tin điều đó sẽ xảy ra

Bài viết liệt kê ba kịch bản tương lai.

Tình huống 1: Xu hướng trì trệ. Năng lực AI gặp giới hạn, có thể do nguồn cung năng lượng, sức mạnh tính toán, hoặc chuỗi cung ứng chip. Anthropic nhận định: "Chúng tôi cho rằng điều này ít khả năng xảy ra."

Tình huống 2: Hiệu quả tổng hợp tiếp tục tăng trưởng. Phát triển AI tự động hóa mạnh mẽ, nhưng con người vẫn hướng dẫn nghiên cứu. Một công ty 100 người có thể làm việc như tổ chức 10.000 đến 100.000 người. Kiểm duyệt mã của con người trở thành rào cản mới. Anthropic nghĩ rằng "chúng tôi có thể đang hướng tới tình huống này."

Tình huống 3: Tự cải tiến vòng lặp hoàn toàn. AI tự thiết kế và huấn luyện thế hệ tiếp theo của chính nó, tốc độ tiến bộ hoàn toàn do sức mạnh tính toán quyết định. Con người chuyển sang vai trò giám sát, xác minh, quản lý.

Phân tích rủi ro của Anthropic về tình huống thứ ba đáng để đọc từng chữ: "Các lệch lạc về phù hợp trong mô hình ngày nay, trong môi trường tự cải tiến vòng lặp, có thể trở nên phổ biến hơn, đồng thời khó hiểu hơn."

Chúng ta hiểu điều này, có thể gần như AI hiện tại đôi khi làm ra hành vi không phù hợp ý định con người, nhưng chúng ta còn nhận biết được. Khi AI tự cải tiến chính nó, những lệch lạc này sẽ tích tụ nhiều lần, và chúng ta sẽ ngày càng khó hiểu nó đã đi lệch hướng đến đâu.

Điều này có thể là câu nói quan trọng nhất trong quá trình tự cải tiến của AI, "tần suất cao hơn, đồng thời khó hiểu hơn", AI có thể tiến tới con đường xấu xa đối với con người không?

Hiệp ước hạt nhân trong thời đại AI không còn khả thi

Giải pháp mà Anthropic đề xuất là một "cơ chế giảm tốc toàn cầu có thể xác minh", tham khảo là Hiệp ước kiểm soát vũ khí hạt nhân trung hạn (INF Treaty) thời Chiến tranh Lạnh.

Phép so sánh này đã thể hiện rõ quy mô vấn đề, INF Treaty từ bắt đầu đàm phán đến ký kết mất gần mười năm. Nó chỉ liên quan đến hai quốc gia. Có thể xác minh qua vệ tinh phát hiện bệ phóng tên lửa.

Huấn luyện mô hình AI không giống như bệ phóng tên lửa, chỉ cần một văn phòng là đủ, còn các cơ sở tính toán có thể đặt xa, gần như không thể phát hiện.

Anthropic bổ sung điều kiện then chốt: "Chúng tôi kỳ vọng khi các nhà phát triển khác cũng có thể làm theo cách có thể xác minh, chúng tôi sẽ giảm tốc hoặc tạm dừng."

Ý của Anthropic là, nếu tất cả mọi người đều dừng, chúng tôi cũng dừng. Nếu có người không dừng, chúng tôi cũng không dừng. Đây là lý thuyết trò chơi, trong cuộc chơi phát triển AI, cân bằng Nash hiện tại là tất cả đều tiếp tục chạy, vì không ai tin người khác sẽ dừng.

Bản năng của vốn là dòng chảy, không có vốn sẽ tạm dừng.

Các câu hỏi thường gặp

递归自我改进（Recursive Self-Improvement） là gì?

Chỉ hệ thống AI có thể tự thiết kế và phát triển thế hệ tiếp theo hoàn toàn tự chủ. Dữ liệu của Anthropic cho thấy Claude đã viết ra 80% mã của chính nó, nhưng hiện vẫn cần hướng dẫn nghiên cứu và kiểm duyệt kết quả của con người, chưa đạt đến tự cải tiến hoàn toàn, Jack Clark dự đoán khả năng đạt 60% trước cuối năm 2028.

Lý do Anthropic kêu gọi tạm dừng phát triển AI là gì?

Anthropic đề xuất xây dựng một "cơ chế giảm tốc có thể xác minh" tương tự như Hiệp ước kiểm soát vũ khí hạt nhân thời Chiến tranh Lạnh, nhưng điều kiện tiên quyết là các phòng thí nghiệm tiên tiến khác cũng phải hợp tác. Các nhà phê bình chỉ ra rằng, lời kêu gọi này chỉ cách hồ sơ IPO trị giá 965 tỷ USD của họ đúng ba ngày, đặt nghi vấn về ý đồ chiến lược hơn là an toàn.

Xem bản gốc

Claude có 80% mã nguồn do chính mình viết, Anthropic kêu gọi "các cơ chế phanh toàn cầu" có thật không?

AI đang tự tiến hóa

Lần trước dừng lại là GPT-2 năm 2019

IPO sau là lương tâm?

Công cụ nhanh hơn, không tự quyết định đóng đinh gì

Anthropic không tin điều đó sẽ xảy ra

Hiệp ước hạt nhân trong thời đại AI không còn khả thi

Chủ đề thịnh hành

ShareYourUSStocksWinNvidia

PredictNBAChampionWin20000U

IsraelStrikesIranBTCPlunges

BitcoinETFSees7272BTCOutflow

SpaceXRoadshowHighlightsAsteroidMining

Đã ghim