OpenAI запускає SWE-Lancer: новий тест штучного інтелекту для реального фріланс-кодування


Відкрийте для себе найкращі новини та події у сфері фінтех!

Підписуйтеся на розсилку FinTech Weekly

Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інші


Новий стандарт вимірювання навичок кодування ШІ у гіг-економіці

Штучний інтелект входить у світ фріланс-розробки програмного забезпечення із новим орієнтиром, створеним для тестування його навичок кодування у реальних завданнях. Названий SWE-Lancer, цей стандарт, введений OpenAI, оцінює продуктивність ШІ за допомогою понад 1 400 реальних завдань фріланс-інженерії з Upwork, загальною вартістю 1 мільйон доларів виплат.

Ця ініціатива має на меті надати більш чітке уявлення про можливості ШІ у професійному середовищі. Замість використання синтетичних задач, SWE-Lancer використовує завдання, які були виконані та оплачено реальними компаніями, пропонуючи більш реалістичну оцінку ефективності ШІ у розробці програмного забезпечення.

Реальні фріланс-завдання, реальні виклики

Більшість стандартів оцінки кодування ШІ зосереджені на чітко визначених проблемах із передбачуваними рішеннями. SWE-Lancer відрізняється. У набір даних входить широкий спектр завдань, від початкових виправлень за 50 доларів до складних реалізацій функцій за 32 000 доларів. Деякі завдання тестують здатність ШІ писати код, інші вимагають прийняття рішень — імітують роль інженерного менеджера, який обирає між різними технічними пропозиціями.

Щоб забезпечити точність, повний тест проходить потрійну перевірку досвідченими інженерами, а управлінські рішення оцінюються за рішеннями оригінальних менеджерів з найму. Стандарт не лише вимірює, чи може ШІ писати код — він оцінює, чи відповідає цей код стандартам, очікуваним платними клієнтами.

Як добре працюють моделі ШІ?

Результати очевидні: навіть найпередовіші моделі ШІ мають труднощі з цими завданнями. Хоча ШІ довів свою здатність генерувати фрагменти коду та допомагати з налагодженням, він ще не справляється з повною складністю фріланс-інженерної роботи. Завдання, що вимагають креативності, розв’язання проблем і довгострокового планування, залишаються викликом.

Цей розрив має великі наслідки. Роль ШІ у розробці програмного забезпечення зростає, але стандарти, такі як SWE-Lancer, свідчать, що повністю автономне кодування ще дуже далеко. На даний момент людські інженери залишаються незамінними, особливо для складних проектів, що виходять за межі простого генерування коду.

Відкритий код для досліджень та економічних інсайтів

Щоб сприяти подальшим дослідженням, команда, яка стоїть за SWE-Lancer, зробила ключові ресурси публічно доступними. Дослідники можуть отримати доступ до уніфікованого образу Docker та підмножини стандарту, під назвою SWE-Lancer Diamond, для оцінки. За допомогою співвідношення продуктивності ШІ з реальним грошовим еквівалентом цей стандарт надає нові уявлення про можливий вплив ШІ на економіку та ринок праці у сфері розробки програмного забезпечення.

Крім розробки програмного забезпечення, ці інсайти можуть бути цінними для фінтех-компаній та бізнесів, що залежать від фріланс-талантів. З покращенням моделей ШІ компанії будуть потребувати кращих способів вимірювання фінансового та операційного впливу автоматизації. SWE-Lancer пропонує основу для розуміння того, як ШІ може інтегруватися у контрактну роботу.

Крок у майбутнє ШІ у розробці програмного забезпечення

Випуск SWE-Lancer підкреслює важливу реальність: ШІ прогресує, але ще має труднощі з реальними вимогами фріланс-інженерії. Хоча інструменти ШІ можуть допомагати розробникам, вони ще не є надійною заміною кваліфікованих фахівців.

Зі зростанням досліджень у галузі ШІ, стандарти, такі як SWE-Lancer, допоможуть відстежувати прогрес, удосконалювати моделі та формувати дискусії про економічний вплив автоматизації. Чи зможе ШІ коли-небудь повністю замінити фріланс-розробників — залишається під питанням, але наразі людський фактор у розробці програмного забезпечення залишається незамінним.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити