Ai nào sử dụng Claude Code giỏi nhất? Có thể câu trả lời không phải là lập trình viên

Question

> Tiêu đề gốc: Agentic coding and persistent returns to expertise
> Tác giả gốc: Anthropoic
> Dịch: Peggy
>

Lời người biên tập: Báo cáo này dựa trên khoảng 400.000 cuộc trò chuyện với Claude Code, thảo luận về cách các công cụ lập trình AI đang thay đổi mối quan hệ giữa con người và mã nguồn như thế nào.

Phát hiện cốt lõi nhất của bài viết là: Trong lập trình bằng trí tuệ nhân tạo, con người chủ yếu quyết định "làm gì", còn Claude chủ yếu phụ trách "làm thế nào". Người dùng đảm nhận phần lớn các quyết định lập kế hoạch, trong khi Claude đảm nhận phần lớn công việc thực thi. Nói cách khác, AI đang tiếp quản các bước thực hiện như viết mã, sửa file, chạy lệnh, gỡ lỗi, nhưng việc đặt mục tiêu và đánh giá kết quả vẫn dựa vào con người.

Quan trọng hơn, hiệu quả sử dụng Claude Code không chỉ phụ thuộc vào việc người dùng có phải là lập trình viên hay không. Báo cáo cho thấy, trong các nhiệm vụ sinh mã, người dùng thuộc các ngành nghề phi kỹ thuật như pháp lý, tài chính, quản lý, nghiên cứu khoa học đã đạt tỷ lệ thành công gần như các kỹ sư phần mềm. Thật sự ảnh hưởng đến kết quả là khả năng hiểu rõ vấn đề cần giải quyết của người dùng.

Điều này có nghĩa là, AI giảm thiểu rào cản về khả năng thực hiện, chứ không phải khả năng đánh giá. Trong tương lai, những người hiểu về kinh doanh, hiểu về bối cảnh, có thể rõ ràng đề xuất yêu cầu và đánh giá kết quả, có thể sẽ sử dụng AI hiệu quả hơn những người chỉ biết viết mã. AI không tự động thay thế kiến thức lĩnh vực, ngược lại, sẽ làm tăng giá trị của kiến thức đó.

Dưới đây là nguyên bản:

Phát hiện chính

Dựa trên các nghiên cứu hiện có, chúng tôi đề xuất một khung phân tích để nghiên cứu lập trình bằng trí tuệ nhân tạo tương tác. Khung này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 400.000 cuộc trò chuyện Claude Code từ tháng 10 năm 2025 đến tháng 4 năm 2026, đánh giá cấu trúc nhiệm vụ, cách con người và AI hợp tác, cũng như tỷ lệ thành công của nhiệm vụ.

Trong một cuộc trò chuyện điển hình, con người chịu trách nhiệm phần lớn các quyết định lập kế hoạch, tức là quyết định "làm gì"; Claude chịu trách nhiệm phần lớn các quyết định thực thi, tức là quyết định "làm thế nào". Mức độ chuyên môn của người dùng trong một lĩnh vực càng cao, số lượng công việc Claude thực hiện theo lệnh càng lớn. Trong các nhiệm vụ lập trình, tỷ lệ thành công trung bình của các nhóm nghề nghiệp chính — tức là liệu họ có hoàn thành đúng ý định ban đầu của người dùng, có thể xác minh qua kiểm thử, gửi mã hay không — gần như ngang bằng với kỹ sư phần mềm.

Khả năng chuyên môn của người dùng càng cao, cuộc trò chuyện càng có khả năng thành công. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không lớn lắm. Trong bảy tháng quan sát, tỷ lệ các cuộc trò chuyện dùng để gỡ lỗi đã giảm gần một nửa, và cách sử dụng cũng chuyển sang các phương thức end-to-end nhiều hơn: triển khai và vận hành mã, phân tích dữ liệu, viết tài liệu không mã.

Trong bảy tháng này, giá trị của các nhiệm vụ điển hình đã tăng gần như ở tất cả các loại công việc. Chúng tôi ước tính giá trị kinh tế của mỗi cuộc trò chuyện dựa trên chi phí của các công việc tương tự trên thị trường tự do, đã điều chỉnh theo dữ liệu thực tế. Theo đó, giá trị trung bình của mỗi cuộc trò chuyện tăng khoảng 27% từ tháng 10 năm 2025 đến tháng 4 năm 2026. Sự tăng này xuất hiện trong nhiều loại công việc khác nhau, như xây dựng, vận hành, sửa chữa, với mức tăng lần lượt khoảng 43%, 34% và 32%. Các ước tính này khá sơ bộ, chủ yếu để so sánh xu hướng thay đổi theo thời gian giữa các nhiệm vụ, chứ không phải để xác định giá trị đô la trực tiếp. Chi tiết về cách xây dựng bộ ước lượng giá trị nhiệm vụ xem trong phụ lục.

Lời giới thiệu

Lập trình bằng trí tuệ nhân tạo đang phát triển nhanh chóng. Từ cuối năm 2025, tỷ lệ các dự án trên GitHub có hoạt động của các trí tuệ nhân tạo lập mã đã tăng gấp đôi, và người dùng Claude Code trung bình sử dụng công cụ này khoảng 20 giờ mỗi tuần. Liệu những người không có kinh nghiệm lập trình chính thức có thể thành công chỉ huy một trí tuệ nhân tạo hoàn thành các công việc phức tạp? Việc áp dụng nhanh các công cụ này và khả năng nâng cao của chúng sẽ ảnh hưởng như thế nào đến các công việc tri thức rộng hơn? Chúng tôi chưa thể đưa ra câu trả lời đầy đủ, nhưng có thể nhận thấy một số tín hiệu sớm từ dữ liệu sử dụng Claude Code.

Báo cáo này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 235.000 người dùng và khoảng 400.000 cuộc trò chuyện tương tác trong giai đoạn từ tháng 10 năm 2025 đến tháng 4 năm 2026, cung cấp bằng chứng về cách sử dụng thực tế Claude Code. Nó tiếp nối các nghiên cứu trước của chúng tôi về các chỉ số tự chủ trong các cuộc trò chuyện Claude Code, cũng như cách Claude Code thay đổi cách làm việc nội bộ của Anthropic. Bài viết đề xuất một khung để mô tả cách sử dụng trợ lý lập trình AI tương tác: mọi người đang làm gì, ai đang làm, và công việc có thành công hay không. Chúng tôi tập trung vào việc người dùng sử dụng Claude Code qua giao diện dòng lệnh (CLI), Claude.ai hoặc ứng dụng desktop Claude Code. Bằng cách theo dõi cách sử dụng lập trình trí tuệ nhân tạo thay đổi theo khả năng của mô hình, chúng tôi có thể hiểu rõ hơn tác động của các công cụ này đối với các chuyên gia lập trình và thị trường lao động công việc tri thức.

Những gì xảy ra trên Claude Code có thể dự báo xu hướng tương lai của công việc tri thức: trí tuệ nhân tạo sẽ dần dần tích hợp vào các công việc phi mã hóa. Chúng tôi nhận thấy Claude đang xử lý các nhiệm vụ phức tạp hơn, có giá trị hơn. Đồng thời, vẫn còn rõ ràng về phân chia lao động trong lập trình AI: con người quyết định xây dựng gì, trí tuệ nhân tạo quyết định cách xây dựng.

Chúng tôi cũng có bằng chứng cho thấy, thực sự làm tăng hiệu quả công cụ là kiến thức chuyên ngành chứ không phải kỹ năng lập trình thuần thục. Đặc biệt, các chuyên gia lĩnh vực dễ thành công hơn và dễ phục hồi từ lỗi hoặc hiểu lầm hơn. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không lớn lắm. Điều này cho thấy, chỉ cần có đủ trình độ trong một lĩnh vực, người dùng gần như có thể sử dụng các công cụ này hiệu quả như các chuyên gia sâu.

Những phát hiện này giúp chúng tôi hình dung sơ bộ về những thay đổi có thể xảy ra trên thị trường lao động. Trong dữ liệu của chúng tôi, thành công phụ thuộc vào khả năng người dùng hiểu rõ vấn đề cần giải quyết, chứ không phải họ có được đào tạo lập trình hay không. Nếu các mô hình này đúng trong toàn bộ nền kinh tế, điều đó có nghĩa là, mặc dù các công cụ lập trình AI có thể đang tiếp nhận một số công việc dựa trên khả năng thực thi, nhưng đồng thời cũng thưởng cho những người thực sự hiểu rõ vấn đề của mình. Lập trình trí tuệ nhân tạo không thay thế kiến thức lĩnh vực. Ngược lại, càng hiểu rõ lĩnh vực, người làm việc có thể hướng dẫn AI hoàn thành nhiều công việc chất lượng cao hơn. Người lao động mang kiến thức lĩnh vực càng nhiều, AI càng có thể hoàn thành các tác vụ chất lượng cao.

Phân chia lao động

Người dùng làm gì với Claude Code

Để hiểu cách mọi người sử dụng Claude Code, chúng tôi phân loại mỗi cuộc trò chuyện thành một trong chín mô hình công việc, mô tả rõ nhất mục tiêu của cuộc trò chuyện đó. Trong đó, bốn mô hình liên quan trực tiếp đến viết hoặc bảo trì mã: xây dựng thứ mới, sửa chữa thứ hỏng, kiểm thử mã, và phối hợp các trí tuệ nhân tạo hoặc tự động hóa quy trình. Một nhóm khác liên quan đến thao tác phần mềm: triển khai, cấu hình, vận hành pipeline và giám sát hệ thống. Hai nhóm nữa tập trung vào việc làm rõ "cần làm gì": hiểu cách hoạt động của hệ thống hiện có, và lập kế hoạch thay đổi trước khi bắt đầu chỉnh sửa. Cuối cùng, hai nhóm không liên quan đến mã nguồn hoặc chỉ hỗ trợ trong sản phẩm cuối cùng: phân tích dữ liệu, và giao tiếp qua các bài thuyết trình hoặc tài liệu dựa trên văn bản.

Khoảng 56% các cuộc trò chuyện gồm viết mã (25%), sửa mã (26%), hoặc kiểm thử và phối hợp mã (5%). Thao tác phần mềm chiếm 17%, lập kế hoạch hoặc khám phá chiếm 14%, phân tích hoặc viết văn bản chiếm 13% (xem Hình 1).

> Hình 1: Chín mô hình công việc. Mỗi cuộc trò chuyện tương tác đều được phân loại theo mô hình phù hợp nhất với mục tiêu của nó.

Chúng tôi để mô hình đọc các ghi chú cuộc trò chuyện, sau đó phân loại từng cuộc dựa trên đó; tiếp theo, dùng công cụ phân tích bảo vệ quyền riêng tư để so sánh kết quả phân loại với dữ liệu telemetry tự ghi nhận của mỗi cuộc, bao gồm việc có thêm hoặc bớt dòng mã. Hai nguồn này có độ nhất quán cao. Ví dụ, trong các cuộc trò chuyện được phân loại là tạo hoặc chỉnh sửa mã, hơn 90% trong telemetry cũng cho thấy có thay đổi mã. Chi tiết xem trong phụ lục.

Ai quyết định

Mức độ tự chủ của Claude Code là bao nhiêu? Đánh giá khả năng cho thấy, giới hạn của nó đã rất cao và vẫn đang tăng lên. Ví dụ, trong các bài kiểm tra tiêu chuẩn như METR, các mô hình tiên tiến hiện có thể tự hoàn thành các nhiệm vụ phần mềm vốn cần hàng giờ của con người, và tự vượt qua các trở ngại trong quá trình. Nhưng trong thực tế, tình hình ra sao? Ở đây, chúng tôi tập trung vào việc trong các cuộc trò chuyện thực tế, con người và Claude đã đảm nhận bao nhiêu phần hướng dẫn.

Chúng tôi nghiên cứu vấn đề này từ hai góc độ. Thứ nhất, chúng tôi xem xét mức độ người dùng giao phó quyết định cho Claude; thứ hai, chúng tôi quan sát xem họ đã giao cho Claude bao nhiêu hành động. Để hiểu rõ phân chia quyết định trong một cuộc trò chuyện, chúng tôi xây dựng một bộ phân loại dựa trên phân tích bảo vệ quyền riêng tư, phân loại các quyết định thành quyết định lập kế hoạch và quyết định thực thi. Quyết định lập kế hoạch gồm "làm gì", "chọn phương pháp", "hoàn thành thế nào"; quyết định thực thi gồm "chỉnh sửa file nào", "viết mã gì", "dùng ngôn ngữ nào", "chạy lệnh nào". Sau đó, bộ phân loại sẽ gán mỗi quyết định cho Claude hoặc người dùng, và tạo ra hai số: tỷ lệ quyết định lập kế hoạch do người dùng đảm nhận, và tỷ lệ quyết định thực thi do người dùng đảm nhận.

Trung bình, con người thực hiện khoảng 70% các quyết định lập kế hoạch, nhưng chỉ khoảng 20% các quyết định thực thi (xem Hình 2). Trong thực tế, lập trình bằng AI tạo ra phân chia rõ ràng về lao động: con người quyết định xây dựng gì, AI quyết định cách xây dựng.

Để hiểu mức độ ủy thác hành động trong một cuộc trò chuyện, chúng tôi không xem nội dung, mà xem cấu trúc cuộc trò chuyện. Các cuộc trò chuyện Claude Code gồm các lượt trao đổi giữa Claude và người dùng: người dùng gửi lệnh, Claude thực hiện hành động; rồi người dùng gửi lệnh tiếp theo, cứ thế lặp lại. Trong các cuộc điển hình, số vòng lặp này khoảng bốn. Trong dữ liệu từ tháng 10 đến tháng 4, trung bình mỗi lệnh của người dùng sẽ kích hoạt Claude thực hiện khoảng 10 hành động, thậm chí có thể hơn 100. Trong mỗi vòng, Claude đọc file, chỉnh sửa mã, chạy lệnh, trung bình xuất ra khoảng 2400 từ.

Khối lượng công việc Claude hoàn thành giữa hai lần kiểm tra của người dùng phụ thuộc lớn vào ai đang quyết định. Khi người dùng giữ quyền kiểm soát quá trình thực thi, tức là họ chiếm hơn 80% các quyết định thực thi, mỗi vòng Claude thực hiện ít hơn, khoảng 8 hành động. Ngược lại, khi Claude nắm quyền quyết định lập kế hoạch hơn 80%, số hành động cao nhất, khoảng 16.

> Hình 2: Tỷ lệ phân bổ quyết định lập kế hoạch và thực thi của Claude. Hình này thể hiện tỷ lệ các quyết định này do Claude hoặc người dùng đảm nhận trong các cuộc trò chuyện điển hình. Trong đó, người dùng thực hiện khoảng 70% quyết định lập kế hoạch, còn Claude thực hiện khoảng 80% quyết định thực thi.

Chuyên môn

Dựa trên từng cuộc trò chuyện, Claude sẽ đánh giá trình độ chuyên môn của người dùng theo thang năm cấp độ từ mới bắt đầu đến chuyên gia. Bộ phân loại trình độ chuyên môn dựa trên ba tín hiệu: độ chính xác của lệnh người dùng đưa ra, yêu cầu xác minh của người dùng, và tần suất người dùng sửa lỗi Claude hoặc Claude sửa lỗi người dùng. Cần lưu ý, trình độ này hoàn toàn khác với chức vụ hay năng lực chung, và quan trọng là nó phù hợp với từng nhiệm vụ cụ thể. Một kỹ sư dày dạn lần đầu hỏi về Rust, vẫn có thể là người mới bắt đầu trong nhiệm vụ Rust. Một kế toán chưa từng dùng Python, nếu có thể chính xác chỉ rõ các quy tắc đối soát trong một script Python và phát hiện các sai sót trong tháng cuối, thì người đó đã là chuyên gia trong nhiệm vụ đó.

Bảng dưới mô tả cách chúng tôi định nghĩa các cấp độ chuyên môn trong bộ phân loại, cùng ví dụ yêu cầu từ bộ dữ liệu mở SWE-chat. Các cuộc trò chuyện được phân loại là "mới bắt đầu" thường có lệnh chung chung, không thể hiện kiến thức chuyên sâu; còn các cuộc trò chuyện "chuyên gia" thể hiện hiểu biết sâu sắc về mã nguồn và môi trường kỹ thuật.

> Bảng 1: Bộ phân loại trình độ chuyên môn. Các ví dụ về cuộc trò chuyện thực tế đã được chỉnh sửa, ẩn danh và rút gọn, do bộ phân loại của chúng tôi gắn nhãn. Nhiều ví dụ đến từ bộ dữ liệu mở về lập trình trí tuệ nhân tạo SWE-chat.

Chúng tôi đã đo lường mối liên hệ giữa trình độ chuyên môn và số hoạt động, cũng như output của Claude mỗi lệnh. Trong các cuộc trò chuyện của người mới bắt đầu, mỗi lệnh kích hoạt khoảng 5 hành động của Claude và tạo ra khoảng 600 từ; trong các cuộc trò chuyện của chuyên gia, chuỗi hành động dài gấp đôi, khoảng 12 hành động, và lượng output đạt khoảng 3200 từ, gấp năm lần so với người mới (xem Hình 3). Khoảng cách này giữa người mới và chuyên gia xuất hiện trong mọi loại công việc và mọi mức giá trị nhiệm vụ.

Các chỉ số này bổ sung cho các nghiên cứu trước về khả năng tự chủ của Claude Code. Trước đó, chúng tôi theo dõi thời gian hoạt động của trí tuệ nhân tạo, và tần suất người dùng tự phê duyệt hành động của nó. Trong khi đó, các chỉ số phân tích quyết định của chúng tôi tập trung vào ai thực hiện các quyết định quan trọng trong toàn bộ cuộc trò chuyện, còn số output và hành động mỗi lệnh kích hoạt đo lường mức độ tự chủ của Claude do từng lệnh của con người gây ra.

> Hình 3: Người dùng chuyên nghiệp hơn, Claude thực hiện nhiều công việc hơn mỗi lệnh. Trình độ chuyên môn càng cao, số hành động (trục trái) và lượng văn bản (trục phải) do Claude tạo ra mỗi lệnh càng nhiều. Hộp thể hiện phạm vi quartile, trung vị chia đôi. Dấu cộng thể hiện trung bình hình học. Cả hai xu hướng tăng này đều có ý nghĩa thống kê (p < 0.001), và sự khác biệt giữa các cấp độ chuyên môn liền kề cũng có ý nghĩa thống kê. Khi kiểm soát các mô hình công việc, giá trị nhiệm vụ, tháng, nghề nghiệp và chuỗi mô hình, cũng như theo tiêu chuẩn sai số nhóm người dùng, xu hướng này vẫn rõ ràng: mỗi cấp độ nâng cao, số hành động tăng 9%, lượng output tăng 13%.

Ai đang dùng Claude Code và họ làm gì

Người dùng

Để hiểu rõ ai đang làm các công việc này, chúng tôi dựa trên hồ sơ trò chuyện để suy ra nghề nghiệp của từng người dùng, rồi ánh xạ vào 23 nhóm nghề chính theo hệ thống phân loại nghề nghiệp của Cục Thống kê Lao động Hoa Kỳ (SOC). Bộ phân loại này chỉ dựa vào các tín hiệu sau: ngữ cảnh dự án mở đầu cuộc trò chuyện, tên và cấu trúc file, tài liệu hoặc sản phẩm người dùng trích dẫn như hợp đồng pháp lý, dữ liệu lâm sàng, báo cáo tài chính, tài liệu giảng dạy, v.v., và từ vựng người dùng sử dụng. Bộ phân loại được yêu cầu không coi "đang viết mã" là bằng chứng nghề lập trình. Chỉ khi có tín hiệu rõ ràng cho thấy công việc của người dùng liên quan đến phần mềm hoặc dữ liệu, thì cuộc trò chuyện mới được phân vào nhóm nghề liên quan đến lập trình, như "nghề nghiệp trong lĩnh vực máy tính và toán học". Ví dụ, nếu một luật sư viết script để tự kiểm tra các điều khoản thiếu trong hợp đồng, dù chủ yếu là viết phần mềm, cuộc trò chuyện vẫn sẽ xếp vào nghề luật. Nếu không có tín hiệu rõ ràng về nghề nghiệp của người dùng, cuộc trò chuyện sẽ không được phân loại.

Chúng tôi có thể suy ra nghề nghiệp của khoảng 70% các cuộc trò chuyện. Trong số các cuộc phân loại được, nhóm nghề "máy tính và toán học" lớn nhất, không có gì ngạc nhiên vì đây là nhóm chiếm phần lớn các công việc liên quan đến phần mềm. Tiếp theo là các ngành kinh doanh và tài chính, nghệ thuật truyền thông, quản lý, cùng các ngành khoa học đời sống, vật lý, xã hội. Trong mẫu dữ liệu của chúng tôi, nhóm nghề phát triển nhanh nhất không liên quan đến phần mềm là quản lý, bán hàng và pháp lý.

Công việc

Từ tháng 10 năm 2025 đến tháng 4 năm 2026, cấu trúc công việc hoàn thành bằng Claude Code đã có sự thay đổi rõ rệt. Thay đổi rõ ràng nhất là tỷ lệ các cuộc trò chuyện sửa mã hỏng giảm từ 33% xuống còn 19% (xem Hình 4). Thay vào đó, các cuộc trò chuyện liên quan đến mã nguồn tăng lên. Tỷ lệ thao tác phần mềm từ 14% lên 21%. Việc viết và phân tích dữ liệu tăng gần gấp đôi, từ khoảng 10% lên khoảng 20%.

Giá trị của các nhiệm vụ cũng tăng lên. Chúng tôi ước tính giá trị kinh tế của mỗi cuộc trò chuyện dựa trên chi phí của các công việc tương tự trên thị trường tự do, đã điều chỉnh theo dữ liệu thực tế. Theo đó, giá trị trung bình của mỗi cuộc trò chuyện trong giai đoạn này tăng khoảng 27%. Sự tăng này xuất hiện trong nhiều loại công việc khác nhau. Các nhiệm vụ xây dựng, vận hành, sửa chữa đều tăng giá trị lần lượt khoảng 43%, 34% và 32%. Các ước tính này khá sơ bộ, chủ yếu để so sánh xu hướng thay đổi theo thời gian giữa các nhiệm vụ, chứ không phải để xác định giá trị đô la chính xác. Chi tiết về cách xây dựng bộ ước lượng giá trị nhiệm vụ xem trong phụ lục.

> Hình 4: Thay đổi cấu trúc công việc và giá trị của Claude Code từ tháng 10 năm 2025 đến tháng 4 năm 2026. Hình này thể hiện tỷ lệ các mô hình công việc trong các cuộc trò chuyện trong vòng bảy tháng. Tỷ lệ sửa mã hỏng giảm từ 33% xuống còn 19%, trong khi tỷ lệ thao tác phần mềm, phân tích dữ liệu và viết tài liệu tăng lên.

Thành công phụ thuộc vào những gì người dùng mang lại

Ước lượng giá trị nhiệm vụ là một cách để hiểu cách Claude Code giúp mọi người hoàn thành công việc. Một cách khác là quan sát tỷ lệ thành công của các cuộc trò chuyện, và các đặc điểm của chúng liên quan đến thành công. Trong tất cả các chỉ số thành công, chúng tôi nhận thấy một mô hình rõ ràng: trình độ chuyên môn của người dùng thể hiện trong cuộc trò chuyện càng cao, khả năng thành công càng lớn. Phần lớn các cải thiện tập trung ở mức độ thấp hơn, nghĩa là, khoảng cách giữa người mới bắt đầu và trung cấp lớn hơn nhiều so với giữa trung cấp và chuyên gia.

Trước khi phân tích các đặc điểm của các cuộc trò chuyện thành công, chúng tôi cần xác định chính xác thế nào là thành công. Chúng tôi không thể quan sát kết quả thực tế trong thế giới thực của người dùng, cũng không thể hỏi trực tiếp họ đã hoàn thành mục tiêu của mình qua Claude hay chưa. Do đó, chúng tôi dựa vào hai phương pháp đo lường dựa trên hồ sơ cuộc trò chuyện, bổ sung cho nhau. Phương pháp đầu tiên là "xác định thành công", dựa trên bộ phân loại đọc toàn bộ hồ sơ để đánh giá xem người dùng đã hoàn thành mục tiêu ban đầu hay chưa, với các mức: thành công, phần thành công, thất bại, không rõ mục tiêu. Sau đó, hai bộ phân loại bổ sung sẽ đánh giá độ tin cậy của đánh giá này để xác định "thành công đã được xác thực". Bộ phân loại tín hiệu thành công sẽ tìm kiếm bằng chứng xác thực, đặc biệt là các hoạt động git phù hợp như commit, pull request, kiểm thử thành công, hoặc người dùng rõ ràng xác nhận. Nó sẽ chấm điểm hồ sơ theo thang từ "không có tín hiệu" (1 điểm) đến "nhiều tín hiệu mạnh" (5 điểm). Bộ phân loại tín hiệu thất bại sẽ chấm điểm các bằng chứng lỗi, như lỗi, kiểm thử thất bại, cố gắng nhiều lần, hoặc phản đối output của người dùng. Thành công đã được xác thực đòi hỏi cả hai điều kiện: hồ sơ được đánh giá là thành công, và ít nhất có một bằng chứng xác thực thành công rõ ràng. Phân tích này tập trung vào mức độ thành công hoặc thất bại của các cuộc trò chuyện, do đó, chúng tôi loại bỏ các cuộc được bộ phân loại xác định là "không rõ mục tiêu", chiếm khoảng 7.7% tổng mẫu.

Phản hồi về lợi ích của trình độ chuyên môn

Vậy, những cuộc trò chuyện nào dễ thành công nhất? Kết quả cho thấy, điểm số trình độ chuyên môn đã đề cập ở trên có ảnh hưởng lớn đến khả năng thành công của cuộc trò chuyện.

Có thể có lo ngại rằng, trình độ chuyên môn không phải là yếu tố thực sự quyết định. Có thể các chuyên gia chỉ chọn các nhiệm vụ khác, hoặc có các đặc điểm khác biệt. Trong phần này, chúng tôi so sánh các cuộc trò chuyện cùng loại công việc, cùng giá trị ước tính, cùng tháng, cùng chủ đề, cùng nhóm nghề nghiệp, để phần nào phản hồi mối lo này, và xem xét cách trình độ chuyên môn khác nhau ảnh hưởng đến kết quả.

> Bảng 2: Định nghĩa thành công và thất bại dựa trên bộ phân loại. Ví dụ từ bộ dữ liệu trò chuyện tương tác mở SWE-chat, đã chỉnh sửa, ẩn danh và rút gọn, do bộ phân loại của chúng tôi gắn nhãn.

Trong tất cả các chỉ số thành công, trình độ chuyên môn của người dùng càng cao, khả năng thành công càng lớn. Các cuộc trò chuyện được đánh giá là "mới bắt đầu" đạt tỷ lệ thành công "được xác thực" là 15%, và ít nhất phần thành công là 77%. Trong khi đó, các cuộc trò chuyện "trung cấp" trở lên có tỷ lệ thành công "được xác thực" từ 28% đến 33%, và phần thành công từ 91% đến 92% (xem Hình 5).

Trong từng chỉ số, phần lớn lợi ích đến từ việc nâng trình độ từ mới bắt đầu lên trung cấp; còn từ trung cấp lên chuyên gia, tốc độ cải thiện chậm lại. Chi tiết phân tích hồi quy đằng sau Hình 5 xem trong phụ lục.

> Hình 5: Mối liên hệ giữa trình độ chuyên môn và kết quả cuộc trò chuyện. Hình này thể hiện tỷ lệ các cuộc trò chuyện đạt các mức thành công hoặc thất bại, theo xếp hạng trình độ từ mới bắt đầu đến chuyên gia, dựa trên các tiêu chí nghiêm ngặt nhất. Bên trái là tất cả các cuộc trò chuyện. Ở giữa và bên phải là các cuộc gặp vấn đề, tức là các cuộc có tín hiệu thất bại lớn hơn 3, thể hiện tỷ lệ cuối cùng của các cuộc đạt các mức thành công hoặc thất bại khác nhau. Các điểm thể hiện tỷ lệ đã điều chỉnh. Chúng tôi so sánh các cuộc trò chuyện cùng mô hình công việc, cùng giá trị nhiệm vụ, cùng tháng, cùng chủ đề, và cùng loại người dùng (liên quan đến phần mềm), để ước lượng sự khác biệt giữa các trình độ. Chi tiết hồi quy xem trong phụ lục. Dây nối thể hiện khoảng tin cậy 95% dựa trên trung bình mẫu, phần lớn không thấy rõ do quá nhỏ. Các hình này loại trừ các cuộc được phân loại là "không rõ mục tiêu".

Trong các cuộc trò chuyện gặp khó khăn, cũng có thể thấy xu hướng tương tự. Khi tín hiệu thất bại được ghi nhận rõ ràng, chúng tôi gọi là "gặp vấn đề". Điều này có thể bao gồm lỗi, thất bại kiểm thử, cố gắng nhiều lần, hoặc người dùng thể hiện thất vọng, bực bội. Trong các cuộc gặp vấn đề, sau khi kiểm soát các biến, tỷ lệ thành công "được xác thực" tăng từ 4% ở người mới bắt đầu lên 15% ở người chuyên gia (xem Hình 5). Nếu dùng các tiêu chí thành công rộng hơn, chúng tôi thấy tỷ lệ ít nhất phần thành công là 60% ở người mới, và từ 80% đến 81% ở các nhóm trung cấp đến chuyên gia.

Chúng tôi cũng theo dõi mối quan hệ ngược lại, giữa trình độ chuyên môn và các chỉ số thất bại khác. Lưu ý, trong phân tích này, các cuộc gọi là thất bại là những cuộc không đạt được phần nào mục tiêu. Nếu một cuộc gặp vấn đề mà không viết ra dòng mã nào, gọi là bỏ cuộc. Trong các cuộc trò chuyện của người mới bắt đầu, có 19% cuối cùng bị bỏ cuộc; còn các nhóm khác, tỷ lệ này là 5% đến 7%. Nói cách khác, người ít kinh nghiệm hơn dễ bỏ cuộc hơn khi gặp khó khăn. Một phần giá trị của trình độ chuyên môn nằm ở khả năng hướng dẫn AI trở lại đúng hướng.

Nghề nghiệp có thể không quan trọng bằng trình độ chuyên môn

Tỷ lệ thành công đã được xác thực của người dùng trong các cuộc trò chuyện liên quan đến phần mềm khoảng 30%, còn các nghề khác là 26%. Trong các cuộc trò chuyện sinh mã, tức ít nhất có thêm hoặc sửa đổi một dòng mã, con số này lần lượt là 34% và 29% (xem Hình 6). Nếu dùng các tiêu chí thành công rộng hơn, khoảng cách giữa các nghề này sẽ nhỏ hơn nữa. Trong các cuộc trò chuyện sinh mã, tỷ lệ thành công ít nhất phần nào của hai nhóm đều đạt 89% và 88%. Khoảng cách 5 điểm phần trăm này không lớn, và trong bảy tháng, không có xu hướng mở rộng hay thu hẹp, mặc dù tỷ lệ thành công của cả hai nhóm đều tăng. Trong 10 nhóm nghề lớn nhất trong dữ liệu của chúng tôi, mỗi nhóm đều có tỷ lệ thành công gần như không chênh lệch quá 7 điểm phần trăm so với kỹ sư phần mềm. Nghề quản lý có tỷ lệ thành công xác thực cao nhất, cao hơn một chút so với các nghề liên quan đến phần mềm. Khả năng thành công cao hơn của các nhà quản lý có thể phản ánh rằng kỹ năng quản lý có thể chuyển giao sang việc chỉ huy AI. Nhưng cũng có thể một phần do cách đo lường của chúng tôi: việc xác nhận thành công phần lớn dựa vào sự xác nhận rõ ràng của người dùng trong cuộc trò chuyện, và các nhà quản lý có thể quen thể hiện rõ mong muốn hơn khi đạt được kết quả mong muốn.

> Hình 6: Tỷ lệ thành công của các cuộc trò chuyện dựa trên nghề nghiệp ước tính, theo phân loại của bộ phân loại. Hình này thể hiện tỷ lệ các cuộc sinh mã hoặc sửa mã, theo các nhóm nghề nghiệp lớn nhất, dựa trên các tiêu chí thành công nghiêm ngặt, gồm cả xác định thành công và xác thực thành công. Các nhóm này đều có tỷ lệ thành công gần như không chênh lệch quá 7 điểm phần trăm so với nhóm nghề "máy tính và toán học" (SOC). Dây nối thể hiện khoảng tin cậy 95% dựa trên các tài khoản khác nhau.

Triển vọng

Kết quả của báo cáo này vẽ ra một bức tranh đang hình thành: lập trình bằng trí tuệ nhân tạo đang mở rộng một số kiến thức và kỹ năng, đồng thời thay thế một số kỹ năng khác. Trong các cuộc trò chuyện sinh mã, các nghề chính đều có tỷ lệ thành công gần như ngang bằng nghề liên quan đến phần mềm. Có vẻ như, việc lập trình AI đang làm cho việc có nền tảng lập trình trở nên ít quan trọng hơn để thành công trong các nhiệm vụ lập trình.

Song song đó, các cuộc trò chuyện thành công thường thể hiện rõ kiến thức chuyên ngành. Các cuộc trò chuyện của các chuyên gia có tỷ lệ thành công xác thực gấp hơn hai lần các cuộc của người mới bắt đầu. Khi gặp vấn đề, tỷ lệ người mới bỏ cuộc cao hơn nhiều so với các nhóm khác. Phương thức hợp tác này làm rõ hơn bức tranh: các chuyên gia lĩnh vực có thể dùng từng lệnh để hướng dẫn Claude hoàn thành nhiều công việc hơn. Do đó, khả năng dẫn dắt Claude thành công phần lớn dựa vào kiến thức lĩnh vực, chứ không phải kỹ năng viết mã. Người có kiến thức lĩnh vực vững chắc trong bất kỳ ngành nào đều có thể hoàn thành các công việc kỹ thuật trước đây chưa từng làm được. Trong khi đó, những người thiếu hiểu biết chuyên sâu, dù dùng cùng công cụ, sẽ thu được ít lợi ích hơn nhiều. Và, lợi ích chủ yếu đến từ khả năng thành thạo, chứ không phải tinh thông. Hiểu rõ một lĩnh vực có thể mang lại phần lớn lợi ích; chuyên sâu chỉ mang lại thêm một chút lợi thế nữa.

Các phát hiện này vẫn còn sơ bộ. Như phần lớn các nghiên cứu của chúng tôi, chúng tôi chưa thể đo lường kết quả thực tế trong thế giới thật, ví dụ như mã nguồn viết ra có được sử dụng hay bị bỏ đi, hoặc có tạo ra giá trị kinh tế hay không. Ngoài ra, phần lớn hoạt động không tương tác bị loại trừ trong báo cáo này, trong khi đó, việc phát triển một khung để đo lường các hoạt động này là một hướng nghiên cứu quan trọng trong tương lai. Đồng thời, tất cả các phân loại của chúng tôi đều dựa trên việc mô hình đọc hồ sơ trò chuyện. Trong phụ lục, chúng tôi trình bày rằng bộ phân loại phù hợp với dữ liệu telemetry độc lập, và trong đa số cuộc trò chuyện, cũng phù hợp với các đánh giá của mô hình tham khảo mạnh. Tuy nhiên, trong các kịch bản quy mô lớn, việc xác nhận bộ phân loại vẫn còn nhiều khó khăn; các cuộc trò chuyện Claude Code cũng phức tạp hơn do độ dài và độ phức tạp của chúng, khiến việc đánh dấu thủ công làm chuẩn còn khó hơn.

Khi mô hình, người dùng, và phân chia lao động giữa họ tiếp tục thay đổi, các hình ảnh trong báo cáo này cũng sẽ liên tục cập nhật. Chúng tôi hy vọng các chỉ số này sẽ giúp theo dõi các chuyển biến lớn đang diễn ra. Ví dụ, nếu trong tương lai, phần thưởng cho trình độ chuyên môn bắt đầu giảm, điều đó cho thấy mô hình đã bắt đầu cung cấp các quyết định quan trọng như người dùng hiện tại, và lợi ích của các công cụ này sẽ mở rộng từ các chuyên gia lĩnh vực sang nhiều nhóm người hơn. Nếu tỷ lệ thành công của người dùng ngoài ngành phần mềm tiếp tục tăng, có thể sản xuất phần mềm đang trở thành một phần của công việc phổ biến trong mọi lĩnh vực, chứ không còn là đặc thù của một nghề duy nhất. Những chuyển đổi này sẽ thay đổi ai sẽ hưởng lợi từ lập trình AI, và mức độ hưởng lợi đó sẽ như thế nào, đồng thời ảnh hưởng đến các kỹ năng được coi trọng nhất trong thị trường lao động.

[Liên kết nguyên bản]

Nhấn để biết thêm về các vị trí tuyển dụng của BlockBeats

Chào mừng gia nhập cộng đồng chính thức của BlockBeats:
Telegram: https://t.me/theblockbeats
Telegram nhóm: https://t.me/BlockBeats_App
Twitter chính thức: https://twitter.com/BlockBeatsAsia

Ai nào sử dụng Claude Code giỏi nhất? Có thể câu trả lời không phải là lập trình viên

Phát hiện chính

Lời giới thiệu

Phân chia lao động

Người dùng làm gì với Claude Code

Ai quyết định

Chuyên môn

Ai đang dùng Claude Code và họ làm gì

Người dùng

Công việc

Thành công phụ thuộc vào những gì người dùng mang lại

Phản hồi về lợi ích của trình độ chuyên môn

Nghề nghiệp có thể không quan trọng bằng trình độ chuyên môn

Triển vọng

Chủ đề thịnh hành

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Đã ghim