OpenAI Ra mắt SWE-Lancer: Chuẩn AI mới cho Lập trình tự do trong thế giới thực


Khám phá tin tức và sự kiện fintech hàng đầu!

Đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các lãnh đạo tại JP Morgan, Coinbase, Blackrock, Klarna và hơn thế nữa


Chuẩn mực Mới để Đo Lường Kỹ Năng Viết Mã của AI trong Nền Kinh tế Gig

Trí tuệ nhân tạo đang bước vào lĩnh vực phát triển phần mềm tự do với một thước đo mới nhằm kiểm tra năng lực viết mã của nó dựa trên các tác vụ trong thế giới thực. Được gọi là SWE-Lancer, bộ chuẩn này, do OpenAI giới thiệu, đánh giá hiệu suất AI bằng hơn 1.400 nhiệm vụ thực tế về kỹ sư phần mềm freelance từ Upwork, tổng cộng trị giá $1 triệu tiền chi trả.

Sáng kiến này nhằm mang lại bức tranh rõ ràng hơn về năng lực của AI trong một bối cảnh chuyên nghiệp. Thay vì dựa vào các bài toán viết mã mang tính tổng hợp, SWE-Lancer sử dụng các tác vụ đã được hoàn thành và được trả tiền bởi các công ty thực, qua đó cung cấp một thước đo thực tế hơn về mức độ hiệu quả của AI trong kỹ thuật phần mềm.

Những công việc freelance thực, những thách thức thực

Phần lớn các bộ chuẩn đo hiệu suất mã hóa của AI tập trung vào các vấn đề được xác định rõ ràng với lời giải có thể dự đoán. SWE-Lancer lại khác. Tập dữ liệu bao gồm nhiều loại tác vụ, từ sửa lỗi $50 đến triển khai tính năng phức tạp trị giá $32.000. Một số phần bài tập kiểm tra khả năng của AI trong việc viết mã, trong khi những phần khác đòi hỏi năng lực ra quyết định—mô phỏng vai trò của một quản lý kỹ thuật bằng cách lựa chọn giữa các đề xuất kỹ thuật cạnh tranh.

Để đảm bảo độ chính xác, các bài test end-to-end được kiểm chứng gấp ba bởi những kỹ sư giàu kinh nghiệm, và các lựa chọn mang tính quản lý được đánh giá dựa trên quyết định của các nhà tuyển dụng ban đầu. Bộ chuẩn không chỉ đo việc liệu một AI có thể viết mã hay không—nó đánh giá liệu đoạn mã đó có đáp ứng các tiêu chuẩn mà khách hàng trả tiền mong đợi hay không.

Các mô hình AI hoạt động tốt đến mức nào?

Kết quả là rõ ràng: dù là các mô hình AI tiên tiến nhất, chúng vẫn gặp khó khăn với những tác vụ này. Mặc dù AI đã chứng minh khả năng tạo ra các đoạn mã và hỗ trợ gỡ lỗi, nó vẫn chưa đạt khi xử lý toàn bộ mức độ phức tạp của công việc kỹ thuật freelance. Những tác vụ đòi hỏi sự sáng tạo, giải quyết vấn đề và lập kế hoạch dài hạn vẫn là một thách thức.

Khoảng cách này có ý nghĩa lớn. Vai trò của AI trong phát triển phần mềm đang ngày càng tăng, nhưng các bộ chuẩn như SWE-Lancer cho thấy rằng mã hóa tự động hoàn toàn vẫn còn rất xa. Hiện tại, các kỹ sư con người vẫn tiếp tục là yếu tố thiết yếu, đặc biệt với các dự án phức tạp vượt ra ngoài việc tạo mã đơn giản.

Mở nguồn để phục vụ nghiên cứu và hiểu biết kinh tế

Để khuyến khích nghiên cứu thêm, nhóm đứng sau SWE-Lancer đã công khai cung cấp các tài nguyên quan trọng. Các nhà nghiên cứu có thể truy cập một image Docker thống nhất và một phần của bộ chuẩn, gọi là SWE-Lancer Diamond, để đánh giá. Bằng cách ánh xạ hiệu suất AI tới giá trị tiền tệ thực tế, bộ chuẩn này mang lại những hiểu biết mới về cách AI có thể tác động đến nền kinh tế và thị trường việc làm trong ngành kỹ thuật phần mềm.

Ngoài phát triển phần mềm, những hiểu biết này có thể có giá trị đối với các công ty fintech và những doanh nghiệp phụ thuộc vào nhân tài freelance. Khi các mô hình AI được cải thiện, các công ty sẽ cần những cách tốt hơn để đo lường tác động tài chính và vận hành của tự động hóa. SWE-Lancer cung cấp nền tảng để hiểu AI có thể tích hợp như thế nào vào công việc dựa trên hợp đồng.

Một bước tiến tới tương lai của AI trong phát triển phần mềm

Việc công bố SWE-Lancer làm nổi bật một thực tế quan trọng: AI đang tiến bộ, nhưng nó vẫn gặp khó khăn trước các yêu cầu trong thế giới thực của công việc kỹ thuật phần mềm freelance. Mặc dù các công cụ AI có thể hỗ trợ nhà phát triển, chúng vẫn chưa phải là sự thay thế đáng tin cậy cho các chuyên gia có tay nghề.

Khi nghiên cứu AI tiếp tục, các bộ chuẩn như SWE-Lancer sẽ giúp theo dõi tiến độ, tinh chỉnh mô hình và định hình các cuộc thảo luận về tác động kinh tế của tự động hóa. Liệu AI có bao giờ thay thế hoàn toàn các nhà phát triển freelance hay không vẫn còn bỏ ngỏ, nhưng hiện tại, yếu tố con người trong kỹ thuật phần mềm vẫn không thể thay thế.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim