Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
OpenAI запускає SWE-Lancer: новий тест штучного інтелекту для реального фріланс-кодування
Відкрийте для себе найкращі новини та події у фінтеху!
Підпишіться на інформаційний бюлетень FinTech Weekly
Читають керівники в JP Morgan, Coinbase, Blackrock, Klarna та інших
Новий стандарт для оцінювання навичок програмування ШІ в гіг-економіці
Штучний інтелект виходить у світ фріланс-розробки програмного забезпечення із новим бенчмарком, створеним для перевірки його здібностей до кодування на реальних завданнях. Названий SWE-Lancer, цей бенчмарк, представлений OpenAI, оцінює продуктивність ШІ, використовуючи понад 1,400 реальних завдань із фріланс-розробки програмного забезпечення з Upwork, сукупна вартість яких становить $1 мільйон виплат.
Ця ініціатива спрямована на те, щоб дати чіткіше уявлення про можливості ШІ в професійному середовищі. Замість того щоб покладатися на синтетичні задачі з кодування, SWE-Lancer використовує завдання, які були виконані та оплачені реальними компаніями, забезпечуючи більш реалістичну міру ефективності ШІ в розробці програмного забезпечення.
Реальні фріланс-вакансії, реальні виклики
Більшість бенчмарків з кодування для ШІ зосереджені на чітко визначених проблемах із прогнозованими рішеннями. SWE-Lancer — інший. Набір даних містить широкий спектр завдань: від виправлень багів за $50 до складних впроваджень функцій за $32,000. Деякі завдання перевіряють здатність ШІ писати код, тоді як інші потребують прийняття рішень — імітують роль інженера-менеджера, обираючи між конкуруючими технічними пропозиціями.
Щоб забезпечити точність, скрізні тести тричі перевіряються досвідченими інженерами, а управлінські рішення оцінюються відповідно до виборів початкових менеджерів із найму. Бенчмарк вимірює не лише те, чи може ШІ писати код — він оцінює, чи відповідає цей код стандартам, яких очікують клієнти, що платять.
Наскільки добре працюють моделі ШІ?
Висновки однозначні: навіть найсучасніші моделі ШІ не справляються з цими завданнями. Хоча ШІ довів свою здатність генерувати фрагменти коду та допомагати з налагодженням, він усе ще не дотягує до повної складності фріланс-інженерної роботи. Завдання, які вимагають креативності, розв’язання проблем і довгострокового планування, залишаються складними.
Цей розрив має суттєві наслідки. Роль ШІ в розробці програмного забезпечення зростає, але бенчмарки на кшталт SWE-Lancer свідчать, що повністю автономне кодування все ще дуже далеко. Поки що людські інженери залишаються критично необхідними, особливо для складних проєктів, які виходять за межі простого генерування коду.
Відкриття для досліджень та економічних висновків
Щоб заохотити подальше вивчення, команда, що стоїть за SWE-Lancer, зробила ключові ресурси доступними публічно. Дослідники можуть отримати доступ до уніфікованого Docker-образу і підмножини бенчмарку під назвою SWE-Lancer Diamond для оцінювання. Зіставляючи продуктивність ШІ з фактичною грошовою цінністю, цей бенчмарк дає нові уявлення про те, як ШІ може вплинути на економіку та ринок вакансій у сфері розробки програмного забезпечення.
Крім розробки програмного забезпечення, ці висновки можуть бути корисними для фінтех-компаній і бізнесів, що покладаються на фрілансерський талант. Оскільки моделі ШІ вдосконалюються, компаніям знадобляться кращі способи вимірювати фінансовий та операційний вплив автоматизації. SWE-Lancer пропонує основу для розуміння того, як ШІ може інтегруватися в роботу за контрактами.
Крок до майбутнього ШІ в розробці програмного забезпечення
Публікація SWE-Lancer підкреслює важливу реальність: ШІ розвивається, але він усе ще не справляється з реальними вимогами фріланс-розробки програмного забезпечення. Хоча інструменти ШІ можуть допомагати розробникам, вони ще не є надійною заміною для кваліфікованих фахівців.
Оскільки дослідження ШІ тривають, бенчмарки на кшталт SWE-Lancer допоможуть відстежувати прогрес, удосконалювати моделі та формувати обговорення економічних наслідків автоматизації. Чи замінить ШІ колись повністю фріланс-розробників, залишається невизначеним, але наразі людський підхід у розробці програмного забезпечення залишається незамінним.