OpenAI запускає SWE-Lancer: новий тест штучного інтелекту для реального фріланс-кодування


Відкрийте для себе найкращі новини та події у фінтеху!

Підпишіться на інформаційний бюлетень FinTech Weekly

Читають керівники в JP Morgan, Coinbase, Blackrock, Klarna та інших


Новий стандарт для оцінювання навичок програмування ШІ в гіг-економіці

Штучний інтелект виходить у світ фріланс-розробки програмного забезпечення із новим бенчмарком, створеним для перевірки його здібностей до кодування на реальних завданнях. Названий SWE-Lancer, цей бенчмарк, представлений OpenAI, оцінює продуктивність ШІ, використовуючи понад 1,400 реальних завдань із фріланс-розробки програмного забезпечення з Upwork, сукупна вартість яких становить $1 мільйон виплат.

Ця ініціатива спрямована на те, щоб дати чіткіше уявлення про можливості ШІ в професійному середовищі. Замість того щоб покладатися на синтетичні задачі з кодування, SWE-Lancer використовує завдання, які були виконані та оплачені реальними компаніями, забезпечуючи більш реалістичну міру ефективності ШІ в розробці програмного забезпечення.

Реальні фріланс-вакансії, реальні виклики

Більшість бенчмарків з кодування для ШІ зосереджені на чітко визначених проблемах із прогнозованими рішеннями. SWE-Lancer — інший. Набір даних містить широкий спектр завдань: від виправлень багів за $50 до складних впроваджень функцій за $32,000. Деякі завдання перевіряють здатність ШІ писати код, тоді як інші потребують прийняття рішень — імітують роль інженера-менеджера, обираючи між конкуруючими технічними пропозиціями.

Щоб забезпечити точність, скрізні тести тричі перевіряються досвідченими інженерами, а управлінські рішення оцінюються відповідно до виборів початкових менеджерів із найму. Бенчмарк вимірює не лише те, чи може ШІ писати код — він оцінює, чи відповідає цей код стандартам, яких очікують клієнти, що платять.

Наскільки добре працюють моделі ШІ?

Висновки однозначні: навіть найсучасніші моделі ШІ не справляються з цими завданнями. Хоча ШІ довів свою здатність генерувати фрагменти коду та допомагати з налагодженням, він усе ще не дотягує до повної складності фріланс-інженерної роботи. Завдання, які вимагають креативності, розв’язання проблем і довгострокового планування, залишаються складними.

Цей розрив має суттєві наслідки. Роль ШІ в розробці програмного забезпечення зростає, але бенчмарки на кшталт SWE-Lancer свідчать, що повністю автономне кодування все ще дуже далеко. Поки що людські інженери залишаються критично необхідними, особливо для складних проєктів, які виходять за межі простого генерування коду.

Відкриття для досліджень та економічних висновків

Щоб заохотити подальше вивчення, команда, що стоїть за SWE-Lancer, зробила ключові ресурси доступними публічно. Дослідники можуть отримати доступ до уніфікованого Docker-образу і підмножини бенчмарку під назвою SWE-Lancer Diamond для оцінювання. Зіставляючи продуктивність ШІ з фактичною грошовою цінністю, цей бенчмарк дає нові уявлення про те, як ШІ може вплинути на економіку та ринок вакансій у сфері розробки програмного забезпечення.

Крім розробки програмного забезпечення, ці висновки можуть бути корисними для фінтех-компаній і бізнесів, що покладаються на фрілансерський талант. Оскільки моделі ШІ вдосконалюються, компаніям знадобляться кращі способи вимірювати фінансовий та операційний вплив автоматизації. SWE-Lancer пропонує основу для розуміння того, як ШІ може інтегруватися в роботу за контрактами.

Крок до майбутнього ШІ в розробці програмного забезпечення

Публікація SWE-Lancer підкреслює важливу реальність: ШІ розвивається, але він усе ще не справляється з реальними вимогами фріланс-розробки програмного забезпечення. Хоча інструменти ШІ можуть допомагати розробникам, вони ще не є надійною заміною для кваліфікованих фахівців.

Оскільки дослідження ШІ тривають, бенчмарки на кшталт SWE-Lancer допоможуть відстежувати прогрес, удосконалювати моделі та формувати обговорення економічних наслідків автоматизації. Чи замінить ШІ колись повністю фріланс-розробників, залишається невизначеним, але наразі людський підхід у розробці програмного забезпечення залишається незамінним.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити