Ai nào giỏi sử dụng Claude Code nhất? Câu trả lời có thể không phải là lập trình viên

> Tiêu đề gốc: Agentic coding and persistent returns to expertise
> Tác giả gốc: Anthropoic
> Dịch: Peggy
>

Lời người biên tập: Báo cáo này dựa trên khoảng 400.000 cuộc trò chuyện với Claude Code, thảo luận về cách các công cụ lập trình AI đang thay đổi mối quan hệ giữa con người và mã nguồn như thế nào.

Phát hiện cốt lõi nhất của bài viết là: Trong lập trình bằng trí tuệ nhân tạo, con người chủ yếu quyết định "làm gì", còn Claude chủ yếu phụ trách "làm thế nào". Người dùng đảm nhận phần lớn các quyết định lập kế hoạch, trong khi Claude đảm nhận phần lớn công việc thực thi. Nói cách khác, AI đang tiếp quản các bước thực hiện như viết mã, sửa file, chạy lệnh, gỡ lỗi, nhưng mục tiêu và đánh giá kết quả vẫn dựa vào con người.

Quan trọng hơn, hiệu quả sử dụng Claude Code không chỉ phụ thuộc vào việc người dùng có phải là lập trình viên hay không. Báo cáo cho thấy, trong các nhiệm vụ sinh mã, người dùng thuộc các ngành nghề phi kỹ thuật như pháp lý, tài chính, quản lý, nghiên cứu khoa học đã đạt tỷ lệ thành công gần như các kỹ sư phần mềm. Thật sự ảnh hưởng đến kết quả là khả năng hiểu rõ vấn đề cần giải quyết của người dùng.

Điều này có nghĩa là, AI giảm thiểu rào cản về khả năng thực hiện, chứ không phải khả năng đánh giá. Trong tương lai, những người hiểu về lĩnh vực, hiểu về bối cảnh, có thể rõ ràng đề xuất yêu cầu và đánh giá kết quả, có thể sẽ sử dụng AI hiệu quả hơn những người chỉ biết viết mã. AI không tự động thay thế kiến thức chuyên ngành, ngược lại còn làm tăng giá trị của kiến thức đó.

Dưới đây là nguyên bản:

Phát hiện chính

Dựa trên các nghiên cứu trước, chúng tôi đề xuất một khung phân tích để nghiên cứu lập trình bằng trí tuệ nhân tạo tương tác. Khung này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 400.000 cuộc trò chuyện Claude Code từ tháng 10/2025 đến tháng 4/2026, đánh giá cấu trúc nhiệm vụ, cách con người và AI hợp tác, cũng như tỷ lệ thành công của nhiệm vụ.

Trong một cuộc trò chuyện điển hình, con người chịu trách nhiệm phần lớn các quyết định lập kế hoạch, tức là quyết định "làm gì"; Claude chịu trách nhiệm phần lớn các quyết định thực thi, tức là quyết định "làm thế nào". Mức độ chuyên môn của người dùng trong lĩnh vực càng cao, thì lượng công việc Claude thực hiện theo lệnh càng lớn. Trong các nhiệm vụ lập trình, tỷ lệ thành công trung bình của các nhóm nghề nghiệp chính — tức là khả năng hoàn thành đúng mục đích ban đầu của người dùng, có thể xác minh qua kiểm thử, gửi mã — gần như ngang bằng với kỹ sư phần mềm.

Khả năng chuyên môn của người dùng càng cao, cuộc trò chuyện càng có khả năng thành công. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không lớn lắm. Trong bảy tháng quan sát, tỷ lệ các cuộc trò chuyện dùng để gỡ lỗi đã giảm gần một nửa, cách dùng cũng chuyển sang các phương thức end-to-end nhiều hơn: triển khai và vận hành mã, phân tích dữ liệu, viết tài liệu không mã.

Trong bảy tháng này, giá trị của các nhiệm vụ điển hình đã tăng gần như ở tất cả các loại công việc. Chúng tôi ước tính giá trị kinh tế của mỗi cuộc trò chuyện dựa trên chi phí của các công việc tương tự trên thị trường tự do, đã điều chỉnh theo dữ liệu thực tế. Theo đó, giá trị trung bình của mỗi cuộc trò chuyện tăng khoảng 25%.

Giới thiệu

Lập trình bằng trí tuệ nhân tạo đang phát triển nhanh chóng. Từ cuối 2025, tỷ lệ các dự án trên GitHub có hoạt động của các trí tuệ nhân tạo lập mã đã tăng gấp đôi, người dùng Claude Code trung bình sử dụng công cụ này 20 giờ mỗi tuần. Người không có kinh nghiệm lập trình chính thức có thể thành công chỉ huy một trí tuệ nhân tạo hoàn thành các công việc phức tạp? Việc sử dụng nhanh chóng các công cụ này và khả năng nâng cao của chúng sẽ ảnh hưởng thế nào đến các ngành nghề tri thức rộng lớn hơn? Hiện tại, chúng tôi chưa thể đưa ra câu trả lời hoàn chỉnh, nhưng có thể nhận thấy một số tín hiệu sớm từ dữ liệu sử dụng Claude Code.

Báo cáo này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 235.000 người dùng, khoảng 400.000 cuộc trò chuyện tương tác trong giai đoạn từ tháng 10/2025 đến tháng 4/2026, cung cấp bằng chứng về cách Claude Code được sử dụng thực tế. Nó tiếp nối các nghiên cứu trước về các chỉ số tự chủ của các cuộc trò chuyện Claude Code, cũng như cách Claude Code thay đổi cách làm việc nội bộ của Anthropic. Bài viết đề xuất một khung để mô tả cách sử dụng trợ lý lập trình AI tương tác: mọi người đang làm gì, ai đang làm, và công việc có thành công hay không. Chúng tôi tập trung vào việc người dùng sử dụng Claude Code qua giao diện dòng lệnh (CLI), Claude.ai hoặc ứng dụng desktop Claude Code. Bằng cách theo dõi cách các phương thức lập trình bằng trí tuệ nhân tạo thay đổi theo khả năng của mô hình, chúng tôi có thể hiểu rõ hơn tác động của các công cụ này đối với các chuyên gia lập trình và lực lượng lao động ngành tri thức.

Những gì xảy ra trên Claude Code có thể dự báo xu hướng tương lai của công việc tri thức: trí tuệ nhân tạo sẽ dần dần tích hợp vào các công việc phi mã hóa. Chúng tôi nhận thấy Claude đang xử lý các nhiệm vụ phức tạp hơn, có giá trị hơn. Đồng thời, vẫn còn rõ ràng về phân chia lao động trong lập trình AI: con người quyết định xây dựng gì, trí tuệ nhân tạo quyết định cách xây dựng.

Chúng tôi cũng thấy bằng chứng cho thấy, thực sự làm tăng hiệu quả công cụ là kiến thức chuyên ngành chứ không phải kỹ năng lập trình thuần thục. Đặc biệt, các chuyên gia lĩnh vực dễ thành công hơn và dễ phục hồi từ lỗi hoặc hiểu lầm hơn. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không lớn lắm. Điều này cho thấy, chỉ cần có đủ trình độ trong lĩnh vực, người dùng gần như có thể sử dụng các công cụ này hiệu quả như các chuyên gia sâu.

Những phát hiện này giúp chúng tôi sơ bộ hình dung về những thay đổi có thể xảy ra trên thị trường lao động. Trong dữ liệu của chúng tôi, thành công phụ thuộc vào khả năng hiểu rõ vấn đề cần giải quyết của người dùng, chứ không phải vào việc họ có được đào tạo lập trình hay không. Nếu các mô hình này đúng trong toàn bộ nền kinh tế, điều đó có nghĩa là, mặc dù các công cụ lập trình AI có thể đang tiếp nhận một số công việc dựa trên thực hiện, nhưng đồng thời còn thưởng cho những người thực sự hiểu rõ vấn đề của mình. Lập trình trí tuệ nhân tạo không thay thế kiến thức chuyên ngành. Ngược lại, càng hiểu rõ lĩnh vực, người lao động càng có thể hướng dẫn AI làm nhiều việc chất lượng cao hơn. Người làm việc có kiến thức lĩnh vực càng nhiều, khả năng AI hoàn thành công việc tốt càng cao.

Phân chia lao động

Người dùng Claude Code làm gì

Để hiểu rõ cách mọi người sử dụng Claude Code, chúng tôi phân loại mỗi cuộc trò chuyện thành một trong chín mô hình công việc, mô tả rõ nhất mục tiêu của cuộc trò chuyện đó. Trong đó, bốn mô hình liên quan trực tiếp đến viết hoặc bảo trì mã: xây dựng thứ mới, sửa chữa thứ hỏng, kiểm thử mã, và phối hợp các trí tuệ nhân tạo hoặc tự động hóa quy trình. Một nhóm khác liên quan đến thao tác phần mềm: triển khai, cấu hình, vận hành pipeline và giám sát hệ thống. Hai nhóm nữa tập trung vào việc làm rõ "cần làm gì": hiểu cách hoạt động của hệ thống hiện có, và lập kế hoạch thay đổi trước khi bắt đầu chỉnh sửa. Cuối cùng, hai nhóm không liên quan đến mã nguồn hoặc chỉ dùng mã như phần phụ trợ trong sản phẩm cuối cùng: phân tích dữ liệu, và giao tiếp qua các bài thuyết trình hoặc tài liệu dựa trên văn bản.

Khoảng 56% các cuộc trò chuyện gồm viết mã (25%), sửa mã (26%), hoặc kiểm thử và phối hợp mã (5%). Thao tác phần mềm chiếm 17%, lập kế hoạch hoặc khám phá chiếm 14%, phân tích hoặc viết văn bản chiếm 13% (xem Hình 1).

> Hình 1: Chín mô hình công việc. Mỗi cuộc trò chuyện tương tác đều được phân loại theo mô hình công việc phù hợp nhất với mục tiêu của nó.

Chúng tôi để mô hình đọc các ghi chép cuộc trò chuyện, sau đó phân loại từng cuộc; rồi dùng công cụ phân tích bảo vệ quyền riêng tư để so sánh kết quả phân loại với dữ liệu telemetry tự ghi của mỗi cuộc, bao gồm việc có thêm hoặc bớt dòng mã. Hai nguồn này có độ nhất quán cao. Ví dụ, trong các cuộc trò chuyện được phân loại là tạo hoặc chỉnh sửa mã, hơn 90% trong telemetry cũng cho thấy có thay đổi mã. Chi tiết xem phụ lục.

Ai quyết định

Mức độ tự chủ của Claude Code là bao nhiêu? Đánh giá khả năng cho thấy, giới hạn của nó đã rất cao và vẫn đang tăng lên. Ví dụ, trong các bài kiểm tra tiêu chuẩn như METR, các mô hình tiên tiến hiện có thể tự hoàn thành các nhiệm vụ phần mềm vốn cần hàng giờ của con người, và tự vượt qua các trở ngại trong quá trình. Nhưng trong thực tế, tình hình ra sao? Ở đây, chúng tôi tập trung vào các cuộc trò chuyện thực tế, xem con người và Claude đã hướng dẫn nhau nhiều như thế nào.

Chúng tôi nghiên cứu vấn đề này từ hai góc độ. Thứ nhất, chúng tôi xem xét mức độ người dùng giao phó quyết định cho Claude; thứ hai, chúng tôi quan sát xem họ đã giao bao nhiêu hành động cho Claude. Để hiểu rõ phân chia quyết định trong một cuộc trò chuyện, chúng tôi xây dựng một bộ phân loại dựa trên phân tích bảo vệ quyền riêng tư, phân loại các quyết định thành quyết định lập kế hoạch và quyết định thực thi. Quyết định lập kế hoạch gồm "làm gì", "chọn phương pháp nào", "được coi là hoàn thành thế nào"; quyết định thực thi gồm "chỉnh sửa file nào", "viết mã gì", "dùng ngôn ngữ nào", "chạy lệnh nào". Sau đó, bộ phân loại sẽ gán mỗi quyết định cho Claude hoặc người dùng, và tạo ra hai số: tỷ lệ quyết định lập kế hoạch do người dùng đảm nhận, và tỷ lệ quyết định thực thi do người dùng đảm nhận.

Trung bình, con người thực hiện khoảng 70% các quyết định lập kế hoạch, nhưng chỉ khoảng 20% các quyết định thực thi (xem Hình 2). Trong thực tế, lập trình bằng trí tuệ nhân tạo rõ ràng phân chia rõ ràng lao động: con người quyết định xây dựng gì, AI quyết định cách xây dựng.

Để hiểu mức độ ủy thác hành động trong một cuộc trò chuyện, chúng tôi không xem nội dung, mà xem cấu trúc cuộc trò chuyện. Các cuộc trò chuyện Claude đều gồm các vòng trao đổi giữa Claude và người dùng: người gửi lệnh, Claude thực hiện hành động; rồi người dùng gửi lệnh tiếp theo, cứ thế lặp lại. Trong các cuộc điển hình, vòng lặp này khoảng bốn lần. Trong dữ liệu từ tháng 10 đến tháng 4, trung bình mỗi lệnh của người dùng sẽ kích hoạt Claude thực hiện khoảng 10 hành động, thậm chí có lúc hơn 100. Trong mỗi vòng, Claude đọc file, chỉnh sửa mã, chạy lệnh, trung bình xuất ra khoảng 2400 từ.

Khối lượng công việc Claude hoàn thành giữa hai lần kiểm tra của người dùng phụ thuộc lớn vào ai đang chỉ đạo. Khi người dùng giữ quyền kiểm soát quá trình thực thi, tức là họ đưa ra hơn 80% quyết định thực thi, mỗi vòng Claude thực hiện ít hơn, khoảng 8 hành động. Ngược lại, khi Claude nắm quyền quyết định lập kế hoạch hơn 80%, số hành động cao nhất, khoảng 16.

> Hình 2: Tỷ lệ phân bổ quyết định lập kế hoạch và thực thi của Claude. Hình này thể hiện tỷ lệ phân bổ các quyết định "làm gì" và "làm thế nào" do Claude hoặc người dùng đảm nhận trong các cuộc trò chuyện điển hình. Trong đó, người dùng thực hiện khoảng 70% quyết định lập kế hoạch, còn Claude thực hiện khoảng 80% quyết định thực thi.

Chuyên môn

Dựa trên từng cuộc trò chuyện, Claude sẽ đánh giá trình độ chuyên môn của người dùng theo thang năm cấp độ từ mới bắt đầu đến chuyên gia. Bộ phân loại trình độ chuyên môn dựa trên ba tín hiệu: độ chính xác của lệnh người dùng đưa ra, yêu cầu xác minh của người dùng, và tần suất người dùng sửa lại Claude hoặc Claude sửa người dùng. Cần lưu ý, trình độ này hoàn toàn khác với chức vụ hoặc năng lực chung, và quan trọng là nó phù hợp với nhiệm vụ cụ thể. Một kỹ sư dày dạn lần đầu hỏi về Rust, vẫn có thể là người mới bắt đầu trong nhiệm vụ Rust. Một kế toán chưa từng dùng Python, nếu có thể chính xác chỉ rõ các quy tắc đối soát trong một script Python và phát hiện các lỗi trong tháng cuối, thì người đó đã là chuyên gia trong nhiệm vụ đó.

Bảng dưới mô tả cách chúng tôi định nghĩa các cấp độ chuyên môn trong bộ phân loại, kèm ví dụ yêu cầu từ bộ dữ liệu mở về các cuộc trò chuyện lập trình trí tuệ nhân tạo SWE-chat. Các cuộc trò chuyện được phân loại là "người mới" thường có lệnh chung chung, không thể hiện kiến thức chuyên ngành; còn các cuộc trò chuyện "chuyên gia" thể hiện hiểu biết sâu về thư viện mã và môi trường kỹ thuật.

> Bảng 1: Bộ phân loại trình độ chuyên môn. Các ví dụ về cuộc trò chuyện thực tế đã được chỉnh sửa, ẩn danh và rút gọn, do bộ phân loại của chúng tôi gán nhãn. Nhiều ví dụ đến từ bộ dữ liệu mở về các cuộc trò chuyện lập trình trí tuệ nhân tạo SWE-chat.

Chúng tôi đã đo lường mối liên hệ giữa trình độ chuyên môn và số hoạt động, cũng như output của Claude mỗi lệnh. Trong các cuộc trò chuyện của người mới điển hình, mỗi lệnh của người dùng kích hoạt khoảng 5 hành động của Claude, và tạo ra khoảng 600 từ. Trong các cuộc trò chuyện của chuyên gia, chuỗi hành động dài gấp đôi, khoảng 12 hành động, và lượng output đạt khoảng 3200 từ, gấp năm lần so với người mới (xem Hình 3). Khoảng cách này xuất hiện trong mọi loại công việc và mọi mức giá trị nhiệm vụ.

Các chỉ số này bổ sung cho các nghiên cứu trước về tự chủ của Claude Code. Trước đó, chúng tôi theo dõi thời gian hoạt động của trí tuệ nhân tạo, cũng như tần suất người dùng tự phê duyệt hành động của nó. Trong khi đó, các chỉ số phân tích quyết định của chúng tôi tập trung vào ai thực sự đưa ra quyết định trong toàn bộ cuộc trò chuyện, còn output và số hành động mỗi lệnh kích hoạt đo lường mức độ tự chủ của Claude do con người kích hoạt.

> Hình 3: Người dùng chuyên nghiệp hơn, Claude thực hiện nhiều công việc hơn mỗi lệnh. Trình độ chuyên môn càng cao, số hành động (trục trái) và lượng văn bản (trục phải) do Claude tạo ra mỗi lệnh càng nhiều. Hộp thể hiện phạm vi quartile, trung vị chia đôi. Đường "whisker" thể hiện phạm vi từ 5 đến 95 percentile. Điểm trắng là trung bình hình học. Cả hai xu hướng tăng này đều có ý nghĩa thống kê (p < 0.001), và sự khác biệt giữa các cấp độ chuyên môn liền kề cũng có ý nghĩa thống kê. Khi kiểm soát các mô hình công việc, giá trị nhiệm vụ, tháng, nghề nghiệp và dòng mô hình, cũng như theo tiêu chuẩn sai số nhóm người dùng, xu hướng này vẫn rõ ràng: mỗi cấp độ chuyên môn tăng một bậc, số hành động tăng 9%, lượng output tăng 13%.

Ai đang dùng Claude Code, và họ làm gì

Người dùng

Để hiểu rõ ai đang làm các công việc này, chúng tôi dựa trên hồ sơ trò chuyện để suy ra nghề nghiệp của từng người dùng, rồi ánh xạ vào 23 nhóm nghề chính theo hệ thống phân loại nghề nghiệp của Cục Thống kê Lao động Hoa Kỳ (SOC). Bộ phân loại này chỉ dựa trên các tín hiệu sau: ngữ cảnh dự án khi bắt đầu cuộc trò chuyện, tên và cấu trúc file, tài liệu hoặc sản phẩm người dùng trích dẫn như hợp đồng pháp lý, dữ liệu lâm sàng, báo cáo tài chính, tài liệu học tập, v.v., và từ vựng người dùng sử dụng. Bộ phân loại được yêu cầu không coi việc viết mã là bằng chứng nghề nghiệp lập trình. Chỉ khi có tín hiệu rõ ràng cho thấy công việc của người dùng liên quan đến phần mềm hoặc dữ liệu, thì cuộc trò chuyện mới được phân vào nhóm nghề liên quan đến lập trình, như "nghề nghiệp về máy tính và toán học". Ví dụ, nếu một luật sư viết script để tự động kiểm tra các điều khoản thiếu trong hợp đồng, dù chủ yếu là viết phần mềm, cuộc trò chuyện vẫn sẽ xếp vào nghề luật. Nếu không có tín hiệu rõ ràng về nghề nghiệp của người dùng, cuộc trò chuyện sẽ không được phân loại.

Chúng tôi có thể suy ra nghề nghiệp trong khoảng 70% các cuộc trò chuyện. Trong các cuộc phân loại được, "nghề nghiệp về máy tính và toán học" là lớn nhất, không có gì ngạc nhiên vì nhóm này bao gồm phần lớn các công việc liên quan phần mềm. Tiếp theo là các ngành kinh doanh, tài chính, nghệ thuật truyền thông, quản lý, và các ngành khoa học đời sống, vật lý, xã hội. Trong mẫu dữ liệu của chúng tôi, nhóm nghề không liên quan đến phần mềm phát triển nhanh nhất là quản lý, bán hàng và pháp lý.

Công việc

Từ tháng 10/2025 đến tháng 4/2026, cấu trúc công việc thực hiện bằng Claude Code đã có sự thay đổi rõ rệt. Thay đổi rõ rệt nhất là tỷ lệ các cuộc trò chuyện sửa mã hỏng giảm từ 33% xuống còn 19% (xem Hình 4). Thay vào đó, các cuộc liên quan đến thao tác mã tăng lên. Tỷ lệ thao tác phần mềm từ 14% lên 21%. Việc viết và phân tích dữ liệu gần như gấp đôi, từ khoảng 10% lên 20%.

Giá trị của các nhiệm vụ cũng tăng lên. Chúng tôi ước tính giá trị kinh tế của mỗi cuộc trò chuyện dựa trên chi phí của các công việc tương tự trên thị trường tự do, đã điều chỉnh theo dữ liệu thực tế. Theo đó, giá trị trung bình của mỗi cuộc tăng 27% trong giai đoạn này. Các nhiệm vụ xây dựng, thao tác và sửa mã tăng lần lượt khoảng 43%, 34% và 32%. Các ước tính này khá sơ bộ, chủ yếu để so sánh xu hướng thay đổi theo thời gian giữa các loại nhiệm vụ, chứ không phải để định giá chính xác bằng USD. Chi tiết về cách xây dựng bộ ước lượng giá trị nhiệm vụ xem phụ lục.

> Hình 4: Thay đổi cấu trúc và giá trị công việc của Claude Code từ tháng 10/2025 đến tháng 4/2026. Hình này thể hiện tỷ lệ các mô hình công việc trong các cuộc trò chuyện trong vòng bảy tháng. Tỷ lệ sửa mã hỏng giảm từ 33% xuống còn 19%, trong khi thao tác phần mềm, phân tích dữ liệu và viết tài liệu tăng lên.

Thành công phụ thuộc vào những gì người dùng mang lại

Ước lượng giá trị nhiệm vụ là cách để hiểu cách Claude Code giúp mọi người hoàn thành công việc. Một cách khác là quan sát tỷ lệ thành công của các cuộc trò chuyện, và các đặc điểm liên quan đến thành công đó. Trong tất cả các chỉ số thành công, chúng tôi nhận thấy một mô hình rõ ràng: trình độ chuyên môn của người dùng thể hiện trong cuộc trò chuyện càng cao, khả năng thành công càng lớn. Phần lớn các cải thiện tập trung ở mức độ thấp hơn, nghĩa là, khoảng cách giữa người mới và người trung cấp lớn hơn nhiều so với giữa trung cấp và chuyên gia.

Trước khi phân tích các đặc điểm của các cuộc trò chuyện thành công, chúng tôi cần xác định chính xác cách đo lường thành công. Chúng tôi không thể quan sát kết quả thực tế trong thế giới thật của người dùng, cũng không thể hỏi trực tiếp họ đã hoàn thành mục tiêu của mình qua Claude hay chưa. Do đó, chúng tôi dựa vào hai phương pháp đo lường dựa trên hồ sơ cuộc trò chuyện, bổ sung cho nhau. Phương pháp đầu tiên là "xác định thành công", sau khi bộ phân loại đọc toàn bộ hồ sơ, sẽ đánh giá xem người dùng đã hoàn thành mục tiêu ban đầu hay chưa, các lựa chọn gồm thành công, thành công một phần, thất bại, hoặc không rõ mục tiêu. Sau đó, hai bộ phân loại bổ trợ sẽ đánh giá độ tin cậy của kết luận này để xác định "thành công đã được xác thực". Bộ phân loại tín hiệu thành công sẽ tìm kiếm bằng chứng xác thực thành công, đặc biệt là các hoạt động git phù hợp như commit, pull request, test pass, hoặc người dùng rõ ràng xác nhận. Nó sẽ chấm điểm hồ sơ theo thang từ "không có tín hiệu" (1 điểm) đến "nhiều tín hiệu mạnh" (5 điểm). Bộ phân loại tín hiệu thất bại sẽ chấm điểm các bằng chứng lỗi, như lỗi, thất bại kiểm thử, cố gắng lặp lại, hoặc phản đối output của người dùng. Thành công đã được xác thực đòi hỏi cả hai điều kiện: hồ sơ được đánh giá là thành công, và ít nhất có một bằng chứng xác thực thành công rõ ràng. Phân tích này tập trung vào mức độ thành công hoặc thất bại của cuộc trò chuyện, do đó loại trừ các cuộc được bộ phân loại thành công đánh giá là "không rõ mục tiêu", chiếm khoảng 7.7% mẫu.

Phần thưởng từ trình độ chuyên môn

Vậy, những cuộc trò chuyện nào dễ thành công nhất? Kết quả cho thấy, điểm số trình độ chuyên môn đã đề cập ở trên có ảnh hưởng lớn đến khả năng thành công của cuộc trò chuyện.

Có thể có lo ngại rằng, trình độ chuyên môn không phải là yếu tố thực sự quyết định. Có thể các chuyên gia chỉ chọn các nhiệm vụ khác, hoặc có các khác biệt khác. Trong phần này, chúng tôi so sánh các cuộc trò chuyện cùng loại công việc, cùng giá trị ước tính, cùng tháng, cùng chủ đề, cùng nhóm nghề nghiệp, để phần nào trả lời mối lo này, và xem cách khác biệt về trình độ ảnh hưởng thế nào đến kết quả.

> Bảng 2: Định nghĩa thành công và thất bại dựa trên bộ phân loại. Ví dụ từ bộ dữ liệu trò chuyện tương tác mở SWE-chat, đã chỉnh sửa, ẩn danh và rút gọn, do bộ phân loại của chúng tôi gán nhãn.

Trong tất cả các chỉ số thành công, trình độ chuyên môn của người dùng càng cao, khả năng thành công càng lớn. Các cuộc trò chuyện được đánh giá là "người mới" đạt tỷ lệ thành công "xác thực" là 15%, và ít nhất phần nào thành công là 77%. Trong khi đó, các cuộc trò chuyện từ trung cấp trở lên có tỷ lệ "xác thực" thành công từ 28% đến 33%, và phần nào thành công từ 91% đến 92% (xem Hình 5).

Trong từng chỉ số, phần lớn lợi ích đến từ việc nâng trình độ từ mới bắt đầu lên trung cấp; còn từ trung cấp lên chuyên gia, tốc độ cải thiện chậm lại. Chi tiết phân tích hồi quy phía sau Hình 5 xem trong phụ lục.

> Hình 5: Mối liên hệ giữa trình độ chuyên môn và kết quả cuộc trò chuyện. Hình này thể hiện kết quả theo năm cấp độ từ mới bắt đầu đến chuyên gia, dựa trên điểm số trình độ của người dùng. Bên trái là tất cả các cuộc trò chuyện. Ở giữa và bên phải, chỉ các cuộc gặp vấn đề, tức là các cuộc có tín hiệu thất bại lớn hơn 3, và thể hiện tỷ lệ đạt các mức thành công và thất bại khác nhau. Mỗi điểm là tỷ lệ đã điều chỉnh. Chúng tôi so sánh các cuộc trò chuyện cùng mô hình công việc, cùng giá trị nhiệm vụ, cùng tháng, cùng chủ đề, và cùng loại nghề nghiệp (ví dụ, nghề phần mềm), để ước lượng sự khác biệt giữa các cấp độ. Chi tiết hồi quy xem trong phụ lục. Đường "whisker" thể hiện khoảng tin cậy 95% của trung bình mẫu, phần lớn không thấy rõ do quá nhỏ. Các hình này loại trừ các cuộc được bộ phân loại thành công đánh giá là "không rõ mục tiêu".

Trong các cuộc trò chuyện gặp khó khăn, cũng có xu hướng tương tự. Khi tín hiệu thất bại ghi nhận bằng chứng rõ ràng, chúng tôi gọi là "gặp vấn đề". Điều này có thể là lỗi, thất bại kiểm thử, cố gắng lặp lại nhiều lần, hoặc người dùng thể hiện thất vọng, không hài lòng. Trong các cuộc gặp vấn đề, sau khi kiểm soát các biến, tỷ lệ thành công xác thực tăng từ 4% ở người mới lên 15% ở người chuyên gia (xem Hình 5). Nếu dùng các tiêu chí thành công rộng hơn, chúng tôi thấy tỷ lệ ít nhất phần nào thành công là 60% ở người mới, và 80-81% ở trung cấp đến chuyên gia.

Chúng tôi cũng theo dõi mối quan hệ ngược lại, giữa trình độ chuyên môn và các chỉ số thất bại khác. Lưu ý, trong phân tích này, các cuộc gọi là thất bại là những cuộc không đạt được phần nào thành công. Nếu một cuộc gặp vấn đề mà không viết ra dòng mã nào, gọi là "bỏ cuộc". Trong các cuộc trò chuyện của người mới, có 19% cuối cùng bị bỏ cuộc; còn các nhóm nghề khác, tỷ lệ này là 5-7%. Nói cách khác, người ít kinh nghiệm hơn dễ bỏ cuộc hơn khi gặp khó khăn. Một phần giá trị của trình độ chuyên môn là khả năng hướng dẫn AI quay trở lại đúng hướng.

Nghề nghiệp có thể không quan trọng bằng trình độ chuyên môn

Người dùng trong các nghề liên quan phần mềm có tỷ lệ thành công xác thực khoảng 30%, còn các nghề khác là 26%. Trong các cuộc trò chuyện sinh mã, tức ít nhất có thêm hoặc sửa đổi một dòng mã, tỷ lệ này lần lượt là 34% và 29% (xem Hình 6). Nếu dùng các tiêu chí thành công rộng hơn, khoảng cách giữa các nghề này sẽ nhỏ hơn nữa. Trong các cuộc trò chuyện sinh mã, tỷ lệ đạt ít nhất phần nào thành công của hai nhóm là 89% và 88%. Chênh lệch 5 điểm phần trăm không lớn, và trong bảy tháng, không có xu hướng mở rộng hay thu hẹp, mặc dù tỷ lệ thành công của cả hai nhóm đều tăng. Trong 10 nhóm nghề lớn nhất trong dữ liệu của chúng tôi, mỗi nhóm đều có tỷ lệ thành công gần như không chênh lệch quá 7 điểm phần trăm so với kỹ sư phần mềm. Nghề quản lý có tỷ lệ thành công xác thực cao nhất, cao hơn một chút so với nghề phần mềm. Tỷ lệ thành công cao hơn của quản lý có thể phản ánh khả năng chuyển giao kỹ năng quản lý sang chỉ huy AI. Nhưng cũng có thể một phần do cách đo lường của chúng tôi: việc xác nhận thành công phần lớn dựa vào sự xác nhận rõ ràng của người dùng trong cuộc trò chuyện, và quản lý quen thể hiện rõ mong muốn khi đạt kết quả mong muốn.

> Hình 6: Tỷ lệ thành công của các cuộc trò chuyện mã hóa theo nghề nghiệp dự đoán. Hình này thể hiện tỷ lệ thành công theo các định nghĩa chặt chẽ dựa trên việc có thêm hoặc sửa đổi ít nhất một dòng mã, phân theo nghề nghiệp dựa trên suy luận. Trong đó, các nhóm nghề lớn nhất đều có tỷ lệ thành công gần như không chênh lệch quá 7 điểm phần trăm so với nhóm nghề "máy tính và toán học" (SOC). Đường "error bar" thể hiện khoảng tin cậy 95% dựa trên các tài khoản khác nhau.

Triển vọng

Kết quả của báo cáo này vẽ ra một bức tranh đang hình thành: lập trình bằng trí tuệ nhân tạo đang mở rộng một số kiến thức và kỹ năng, đồng thời thay thế một số kỹ năng khác. Trong các cuộc trò chuyện sinh mã, các ngành nghề chính đều có tỷ lệ thành công gần như ngang bằng nghề phần mềm. Có vẻ như, việc lập trình AI đang làm cho việc có nền tảng lập trình trở nên ít quan trọng hơn để hoàn thành nhiệm vụ lập trình.

Song song đó, các cuộc trò chuyện thành công thường thể hiện rõ kiến thức chuyên ngành. Các cuộc trò chuyện của các chuyên gia có tỷ lệ thành công xác thực gấp hơn hai lần các cuộc của người mới. Khi gặp vấn đề, tỷ lệ người mới bỏ cuộc cao hơn nhiều so với các nhóm khác. Phương thức hợp tác này làm rõ hơn bức tranh: các chuyên gia lĩnh vực có thể dùng từng lệnh để hướng dẫn Claude làm nhiều việc hơn. Do đó, khả năng đưa Claude đến thành công phần lớn dựa vào kiến thức lĩnh vực, chứ không phải kỹ năng viết mã. Người có kiến thức lĩnh vực sâu rộng hơn, có thể hoàn thành các nhiệm vụ kỹ thuật trước đây không thể làm được. Trong khi đó, những người thiếu hiểu biết chuyên sâu, dù dùng cùng công cụ, sẽ thu được ít lợi ích hơn nhiều. Và, lợi ích chủ yếu đến từ khả năng thành công, chứ không phải từ sự thành thạo. Hiểu rõ về lĩnh vực có thể đem lại phần lớn lợi ích; chuyên sâu hơn chỉ mang lại lợi thế nhỏ.

Các phát hiện này còn mang tính sơ bộ. Giống như nhiều nghiên cứu khác, chúng tôi chưa thể đo lường kết quả thực tế trong thế giới thật, như mã nguồn viết ra có được sử dụng hay bị bỏ đi, hoặc có tạo ra giá trị kinh tế hay không. Ngoài ra, phần lớn hoạt động không tương tác này chưa được đo lường, mặc dù chiếm phần lớn hoạt động chung. Xây dựng một khung để đo lường các dạng sử dụng này là công việc trong tương lai. Đồng thời, tất cả các phân loại của chúng tôi đều dựa trên việc mô hình đọc hồ sơ trò chuyện. Trong phụ lục, chúng tôi trình bày rằng bộ phân loại phù hợp với dữ liệu telemetry độc lập, và trong đa số cuộc trò chuyện, đều phù hợp với các đánh giá của mô hình tham khảo mạnh. Tuy nhiên, trong các kịch bản quy mô lớn, việc xác nhận bộ phân loại vẫn còn khó khăn; các cuộc trò chuyện Claude Code cũng phức tạp hơn do độ dài và độ phức tạp, khó có thể dựa vào nhãn thủ công làm chuẩn tham khảo.

Khi mô hình, người dùng, và phân chia lao động giữa họ tiếp tục thay đổi, các hình ảnh trong báo cáo này cũng sẽ liên tục cập nhật. Chúng tôi hy vọng các chỉ số này sẽ giúp theo dõi các chuyển biến lớn đang diễn ra. Ví dụ, nếu trong tương lai, phần thưởng từ trình độ chuyên môn bắt đầu giảm, điều đó cho thấy mô hình đã bắt đầu cung cấp các quyết định quan trọng như con người hiện tại, và lợi ích của các công cụ này sẽ mở rộng từ các chuyên gia lĩnh vực sang nhiều người hơn. Nếu tỷ lệ thành công của người dùng ngoài ngành phần mềm tiếp tục tăng, có thể hiểu rằng, việc sản xuất phần mềm đang trở thành một phần của công việc phổ biến trong mọi lĩnh vực, không còn là đặc thù của một nghề nào đó. Những chuyển đổi này sẽ thay đổi ai sẽ hưởng lợi từ lập trình trí tuệ nhân tạo, và mức độ hưởng lợi đó sẽ như thế nào, ảnh hưởng đến các kỹ năng được coi trọng nhất trong thị trường lao động.

[Liên kết nguyên bản]

Nhấn để biết thêm về các vị trí tuyển dụng của BlockBeats

Chào mừng tham gia cộng đồng chính thức của BlockBeats:

Telegram: https://t.me/theblockbeats

Telegram nhóm: https://t.me/BlockBeats_App

Twitter chính thức: https://twitter.com/BlockBeatsAsia

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim