OpenAI Ra mắt SWE-Lancer: Chuẩn AI mới cho Lập trình tự do trong thế giới thực


Khám phá tin tức và sự kiện fintech hàng đầu!

Đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các giám đốc điều hành tại JP Morgan, Coinbase, Blackrock, Klarna và nhiều hơn nữa


Một tiêu chuẩn mới để đo lường kỹ năng lập trình của AI trong nền kinh tế gig

Trí tuệ nhân tạo đang bước vào thế giới phát triển phần mềm tự do với một chuẩn mực mới được thiết kế để kiểm tra khả năng lập trình của nó so với các nhiệm vụ thực tế. Được gọi là SWE-Lancer, chuẩn mực này, do OpenAI giới thiệu, đánh giá hiệu suất của AI bằng cách sử dụng hơn 1.400 nhiệm vụ lập trình phần mềm thực tế từ Upwork, tổng giá trị lên tới 1 triệu đô la trong các khoản thanh toán.

Sáng kiến này nhằm cung cấp cái nhìn rõ ràng hơn về khả năng của AI trong môi trường chuyên nghiệp. Thay vì dựa vào các vấn đề lập trình tổng hợp, SWE-Lancer sử dụng các nhiệm vụ đã được hoàn thành và thanh toán bởi các công ty thực, cung cấp một thước đo thực tế hơn về hiệu quả của AI trong lĩnh vực kỹ thuật phần mềm.

Công việc tự do thực, Thách thức thực

Hầu hết các chuẩn mực lập trình AI tập trung vào các vấn đề được xác định rõ ràng với các giải pháp có thể dự đoán. SWE-Lancer thì khác. Tập dữ liệu bao gồm nhiều loại nhiệm vụ, từ các sửa lỗi trị giá 50 đô la đến các triển khai tính năng phức tạp trị giá 32.000 đô la. Một số nhiệm vụ kiểm tra khả năng viết mã của AI, trong khi những nhiệm vụ khác yêu cầu ra quyết định—mô phỏng vai trò của một quản lý kỹ thuật bằng cách lựa chọn giữa các đề xuất kỹ thuật cạnh tranh.

Để đảm bảo độ chính xác, các bài kiểm tra từ đầu đến cuối được xác minh ba lần bởi các kỹ sư dày dạn kinh nghiệm, và các lựa chọn quản lý được đánh giá so với các quyết định của các quản lý tuyển dụng ban đầu. Chuẩn mực này không chỉ đo lường xem một AI có thể viết mã hay không—mà còn đánh giá xem mã đó có đáp ứng các tiêu chuẩn mà khách hàng trả tiền mong đợi hay không.

Mô hình AI hoạt động tốt đến đâu?

Các phát hiện là rõ ràng: ngay cả những mô hình AI tiên tiến nhất cũng gặp khó khăn với những nhiệm vụ này. Trong khi AI đã chứng minh khả năng tạo ra các đoạn mã và hỗ trợ sửa lỗi, nó vẫn chưa đủ sức khi xử lý toàn bộ độ phức tạp của công việc kỹ thuật phần mềm tự do. Những nhiệm vụ đòi hỏi sự sáng tạo, giải quyết vấn đề và lập kế hoạch dài hạn vẫn là một thách thức.

Khoảng cách này có những hệ quả lớn. Vai trò của AI trong phát triển phần mềm đang gia tăng, nhưng các chuẩn mực như SWE-Lancer cho thấy rằng việc lập trình hoàn toàn tự động vẫn còn xa vời. Hiện tại, các kỹ sư con người vẫn là điều thiết yếu, đặc biệt là cho các dự án phức tạp vượt ra ngoài việc tạo mã đơn giản.

Mở nguồn cho nghiên cứu và cái nhìn kinh tế

Để khuyến khích nghiên cứu thêm, nhóm đứng sau SWE-Lancer đã công bố các tài nguyên quan trọng. Các nhà nghiên cứu có thể truy cập một hình ảnh Docker thống nhất và một tập con của chuẩn mực, gọi là SWE-Lancer Diamond, để đánh giá. Bằng cách ánh xạ hiệu suất AI với giá trị tiền tệ thực tế, chuẩn mực này cung cấp những cái nhìn mới về cách AI có thể ảnh hưởng đến nền kinh tế và thị trường việc làm kỹ thuật phần mềm.

Ngoài phát triển phần mềm, những cái nhìn này có thể có giá trị cho các công ty fintech và những doanh nghiệp phụ thuộc vào tài năng tự do. Khi các mô hình AI cải thiện, các công ty sẽ cần các phương pháp tốt hơn để đo lường tác động tài chính và vận hành của tự động hóa. SWE-Lancer cung cấp một nền tảng để hiểu cách AI có thể tích hợp vào công việc theo hợp đồng.

Một bước tiến tới tương lai của AI trong phát triển phần mềm

Việc phát hành SWE-Lancer nhấn mạnh một thực tế quan trọng: AI đang tiến bộ, nhưng nó vẫn gặp khó khăn với những yêu cầu thực tế của kỹ thuật phần mềm tự do. Trong khi các công cụ AI có thể hỗ trợ các nhà phát triển, chúng vẫn chưa phải là sự thay thế đáng tin cậy cho các chuyên gia có kỹ năng.

Khi nghiên cứu AI tiếp tục, các chuẩn mực như SWE-Lancer sẽ giúp theo dõi tiến trình, tinh chỉnh các mô hình và định hình các cuộc thảo luận về tác động kinh tế của tự động hóa. Liệu AI có bao giờ hoàn toàn thay thế các nhà phát triển tự do hay không vẫn còn chưa chắc chắn, nhưng hiện tại, yếu tố con người trong kỹ thuật phần mềm vẫn không thể thay thế.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim