Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
OpenAI запускає SWE-Lancer: новий тест штучного інтелекту для реального фріланс-кодування
Дізнайтеся про топові фінтех-новини та події!
Підпишіться на бюлетень FinTech Weekly
Читають керівники в JP Morgan, Coinbase, Blackrock, Klarna та багатьох інших
Новий стандарт для вимірювання навичок програмування ШІ в гіг-економіці
Генеративний штучний інтелект виходить у світ фриланс-розробки програмного забезпечення завдяки новому бенчмарку, створеному для перевірки його навичок програмування на реальних завданнях. Його назва — SWE-Lancer. Цей бенчмарк, представлений OpenAI, оцінює продуктивність ШІ, використовуючи понад 1,400 реальних завдань із фриланс-інженерії програмного забезпечення з Upwork, які в сумі становлять $1 мільйон виплат.
Ініціатива спрямована на те, щоб дати чіткіше уявлення про можливості ШІ в професійному середовищі. Замість того, щоб покладатися на синтетичні задачі з програмування, SWE-Lancer використовує завдання, які були виконані та оплачені реальними компаніями, надаючи більш реалістичну оцінку ефективності ШІ в розробці ПЗ.
Реальні фриланс-завдання, реальні виклики
Більшість бенчмарків для ШІ в програмуванні зосереджуються на добре визначених задачах із передбачуваними рішеннями. SWE-Lancer — інший. Датасет містить широкий спектр завдань: від виправлення багів за $50 до складних реалізацій фіч за $32,000. Деякі завдання перевіряють здатність ШІ писати код, тоді як інші вимагають ухвалення рішень — моделюючи роль інженерного менеджера, обираючи між конкуруючими технічними пропозиціями.
Щоб забезпечити точність, скрізні тести потрійно верифікуються досвідченими інженерами, а управлінські рішення оцінюються на основі того, як би діяли оригінальні наймаючі менеджери. Бенчмарк не просто вимірює, чи може ШІ писати код — він оцінює, чи відповідає цей код стандартам, яких очікують клієнти, що платять.
Наскільки добре працюють моделі ШІ?
Висновки однозначні: навіть найпотужніші моделі ШІ стикаються зі складнощами під час виконання цих завдань. Хоча ШІ довів свою здатність генерувати фрагменти коду та допомагати з дебагінгом, він усе ще не справляється, коли потрібно опрацьовувати повну складність фриланс-інженерії. Завдання, що потребують креативності, розв’язання проблем і довгострокового планування, залишаються викликом.
Цей розрив має серйозні наслідки. Роль ШІ в розробці програмного забезпечення зростає, але бенчмарки на кшталт SWE-Lancer вказують, що повністю автономне програмування ще далеко попереду. Поки що людські інженери й далі є необхідними, особливо для складних проєктів, що виходять за межі простого генерування коду.
Відкритий доступ для досліджень і економічних інсайтів
Щоб заохотити подальше вивчення, команда, яка стоїть за SWE-Lancer, зробила ключові ресурси доступними публічно. Дослідники можуть отримати доступ до єдиного Docker-образу та підмножини бенчмарку під назвою SWE-Lancer Diamond для оцінювання. Відображаючи продуктивність ШІ на реальну грошову цінність, цей бенчмарк дає нові інсайти щодо того, як ШІ може вплинути на економіку та ринок праці у сфері програмної інженерії.
Окрім розробки ПЗ, ці висновки можуть бути корисними для фінтех-компаній і бізнесів, що спираються на фрилансерський талант. У міру покращення моделей ШІ компаніям знадобляться кращі способи вимірювати фінансовий та операційний вплив автоматизації. SWE-Lancer закладає основу для розуміння того, як ШІ може інтегруватися в роботу за контрактами.
Крок до майбутнього ШІ в розробці програмного забезпечення
Реліз SWE-Lancer підкреслює важливу реальність: ШІ прогресує, але все ще не справляється з реальними вимогами фриланс-розробки програмного забезпечення. Хоча інструменти ШІ можуть допомагати розробникам, вони ще не є надійною заміною для кваліфікованих фахівців.
Поки тривають дослідження ШІ, бенчмарки на кшталт SWE-Lancer допоможуть відстежувати прогрес, вдосконалювати моделі та формувати дискусії про економічні наслідки автоматизації. Невідомо, чи зможе колись ШІ повністю замінити фриланс-розробників, але наразі людський підхід у програмній інженерії залишається незамінним.