OpenAI запускає SWE-Lancer: новий імітатор штучного інтелекту для реального фріланс-кодування


Відкрийте для себе найкращі новини та події у сфері фінтех!

Підпишіться на розсилку FinTech Weekly

Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інших компаній


Новий стандарт вимірювання навичок кодування ШІ у гіг-економіці

Штучний інтелект входить у світ фріланс-розробки програмного забезпечення із новим орієнтиром, створеним для тестування його навичок кодування у реальних задачах. Названий SWE-Lancer, цей стандарт, запроваджений OpenAI, оцінює продуктивність ШІ за допомогою понад 1 400 реальних завдань фріланс-інженерії з Upwork, загальною вартістю понад $1 мільйонів виплат.

Ця ініціатива має на меті надати більш чітке уявлення про можливості ШІ у професійному середовищі. Замість синтетичних задач з кодування, SWE-Lancer використовує завдання, які були виконані та оплачено реальними компаніями, пропонуючи більш реалістичну оцінку ефективності ШІ у розробці програмного забезпечення.

Реальні фріланс-завдання, реальні виклики

Більшість стандартів оцінки кодування ШІ зосереджені на чітко визначених проблемах із передбачуваними рішеннями. SWE-Lancer відрізняється. У набір даних входять широкий спектр завдань, від $50 виправлення багів до складних $32 000$ реалізацій функцій. Деякі завдання тестують здатність ШІ писати код, інші вимагають прийняття рішень — імітують роль інженерного менеджера, який обирає між різними технічними пропозиціями.

Щоб забезпечити точність, кінцеві тести тричі перевіряються досвідченими інженерами, а управлінські рішення оцінюються за рішеннями оригінальних менеджерів з найму. Стандарт не лише вимірює, чи може ШІ писати код — він оцінює, чи відповідає цей код стандартам, очікуваним платними клієнтами.

Як добре працюють моделі ШІ?

Результати очевидні: навіть найпередовіші моделі ШІ мають труднощі з цими завданнями. Хоча ШІ довів свою здатність генерувати фрагменти коду та допомагати з налагодженням, він ще не справляється з повною складністю фріланс-інженерної роботи. Завдання, що вимагають креативності, розв’язання проблем і довгострокового планування, залишаються викликом.

Цей розрив має великі наслідки. Роль ШІ у розробці програмного забезпечення зростає, але стандарти, такі як SWE-Lancer, свідчать, що повністю автономне кодування ще дуже далеко. На даний момент людські інженери залишаються незамінними, особливо для складних проектів, що виходять за межі простого генерування коду.

Відкритий код для досліджень та економічних аналізів

Щоб сприяти подальшим дослідженням, команда, яка стоїть за SWE-Lancer, зробила ключові ресурси публічно доступними. Дослідники можуть отримати доступ до уніфікованого образу Docker та підмножини стандарту, під назвою SWE-Lancer Diamond, для оцінки. За допомогою співвідношення продуктивності ШІ з реальними грошовими сумами цей стандарт надає нові уявлення про можливий вплив ШІ на економіку та ринок праці у сфері розробки програмного забезпечення.

Крім розробки програмного забезпечення, ці дані можуть бути корисними для фінтех-компаній та бізнесів, що залежать від фріланс-талантів. З покращенням моделей ШІ компанії потребуватимуть кращих способів вимірювання фінансового та операційного впливу автоматизації. SWE-Lancer створює основу для розуміння того, як ШІ може інтегруватися у контрактну роботу.

Крок у майбутнє ШІ у розробці програмного забезпечення

Випуск SWE-Lancer підкреслює важливу реальність: ШІ прогресує, але ще має труднощі з реальними вимогами фріланс-інженерії. Хоча інструменти ШІ можуть допомагати розробникам, вони ще не є надійною заміною кваліфікованих фахівців.

Зі зростанням досліджень у галузі ШІ стандарти, такі як SWE-Lancer, допомагатимуть відстежувати прогрес, удосконалювати моделі та формувати дискусії щодо економічних наслідків автоматизації. Чи зможе ШІ коли-небудь повністю замінити фріланс-розробників — залишається під питанням, але наразі людський фактор у розробці програмного забезпечення залишається незамінним.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити