Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
OpenAI запускает SWE-Lancer: новый тест AI для реальной фриланс-программирования
Откройте для себя лучшие новости и мероприятия в сфере финтеха!
Подпишитесь на рассылку FinTech Weekly
Читают руководители в JP Morgan, Coinbase, Blackrock, Klarna и других
Новый стандарт для оценки навыков программирования ИИ в гиг-экономике
Искусственный интеллект выходит в мир фриланс-разработки программного обеспечения с новым бенчмарком, предназначенным для проверки его способностей к программированию на реальных задачах. Называемый SWE-Lancer, этот бенчмарк, представленный OpenAI, оценивает производительность ИИ с использованием более 1,400 реальных задач по фриланс-инженерии ПО с Upwork, суммарно оцениваемых в $1 миллион выплат.
Инициатива нацелена на то, чтобы дать более четкую картину возможностей ИИ в профессиональной среде. Вместо того чтобы полагаться на синтетические задачи по кодингу, SWE-Lancer использует задачи, которые были выполнены и оплачены реальными компаниями, обеспечивая более реалистичную оценку эффективности ИИ в разработке ПО.
Реальные фриланс-заказы, реальные вызовы
Большинство бенчмарков по кодингу для ИИ ориентированы на хорошо определенные проблемы с предсказуемыми решениями. SWE-Lancer — другой. Набор данных включает широкий спектр задач: от исправлений багов за $50 до сложных реализаций функций за $32,000. Некоторые задания проверяют способность ИИ писать код, в то время как другие требуют принятия решений — имитируя роль инженерного менеджера, выбирая между конкурирующими техническими предложениями.
Чтобы обеспечить точность, сквозные тесты трижды проверяются опытными инженерами, а управленческие решения оцениваются по сравнению с решениями исходных менеджеров по найму. Бенчмарк оценивает не только то, может ли ИИ написать код, — он определяет, соответствует ли этот код стандартам, ожидаемым оплачивающими клиентами.
Насколько хорошо модели ИИ справляются?
Выводы ясны: даже самые продвинутые модели ИИ испытывают трудности с этими задачами. Хотя ИИ доказал свою способность генерировать фрагменты кода и помогать с отладкой, ему все еще не хватает для обработки полной сложности фриланс-инженерной работы. Задачи, требующие креативности, решения проблем и долгосрочного планирования, по-прежнему остаются сложными.
У этого разрыва есть серьезные последствия. Роль ИИ в разработке ПО растет, но бенчмарки вроде SWE-Lancer указывают на то, что полностью автономный кодинг все еще находится далеко впереди. Пока что человеческие инженеры остаются незаменимыми, особенно для сложных проектов, выходящих за рамки простой генерации кода.
Открытый исходный код для исследований и экономических выводов
Чтобы поощрить дальнейшее изучение, команда, стоящая за SWE-Lancer, сделала ключевые ресурсы доступными публично. Исследователи могут получить доступ к унифицированному Docker-образу и подмножеству бенчмарка под названием SWE-Lancer Diamond для оценки. Соотнося производительность ИИ с фактической денежной ценностью, этот бенчмарк дает новые инсайты в то, как ИИ может повлиять на экономику и рынок рабочих мест в сфере разработки ПО.
Помимо разработки ПО, эти выводы могут быть полезны для финтех-компаний и бизнесов, которые опираются на фриланс-таланты. По мере того как модели ИИ будут улучшаться, компаниям понадобятся более надежные способы измерять финансовое и операционное влияние автоматизации. SWE-Lancer закладывает основу для понимания того, как ИИ может интегрироваться в работу по контрактам.
Шаг к будущему ИИ в разработке ПО
Выход SWE-Lancer подчеркивает важную реальность: ИИ развивается, но ему все еще сложно справляться с требованиями реального мира во фриланс-разработке ПО. Хотя инструменты ИИ могут помогать разработчикам, они пока не являются надежной заменой для квалифицированных специалистов.
Пока продолжаются исследования в области ИИ, бенчмарки вроде SWE-Lancer будут помогать отслеживать прогресс, уточнять модели и формировать обсуждения о влиянии автоматизации на экономику. Будет ли ИИ когда-нибудь полностью заменять фриланс-разработчиков, остается неопределенным, но пока человеческий подход в разработке ПО остается незаменимым.