OpenAI запускает SWE-Lancer: новый тест AI для реальной фриланс-программирования


Откройте для себя лучшие новости и мероприятия в сфере финтеха!

Подпишитесь на рассылку FinTech Weekly

Читают руководители в JP Morgan, Coinbase, Blackrock, Klarna и других


Новый стандарт для оценки навыков программирования ИИ в гиг-экономике

Искусственный интеллект выходит в мир фриланс-разработки программного обеспечения с новым бенчмарком, предназначенным для проверки его способностей к программированию на реальных задачах. Называемый SWE-Lancer, этот бенчмарк, представленный OpenAI, оценивает производительность ИИ с использованием более 1,400 реальных задач по фриланс-инженерии ПО с Upwork, суммарно оцениваемых в $1 миллион выплат.

Инициатива нацелена на то, чтобы дать более четкую картину возможностей ИИ в профессиональной среде. Вместо того чтобы полагаться на синтетические задачи по кодингу, SWE-Lancer использует задачи, которые были выполнены и оплачены реальными компаниями, обеспечивая более реалистичную оценку эффективности ИИ в разработке ПО.

Реальные фриланс-заказы, реальные вызовы

Большинство бенчмарков по кодингу для ИИ ориентированы на хорошо определенные проблемы с предсказуемыми решениями. SWE-Lancer — другой. Набор данных включает широкий спектр задач: от исправлений багов за $50 до сложных реализаций функций за $32,000. Некоторые задания проверяют способность ИИ писать код, в то время как другие требуют принятия решений — имитируя роль инженерного менеджера, выбирая между конкурирующими техническими предложениями.

Чтобы обеспечить точность, сквозные тесты трижды проверяются опытными инженерами, а управленческие решения оцениваются по сравнению с решениями исходных менеджеров по найму. Бенчмарк оценивает не только то, может ли ИИ написать код, — он определяет, соответствует ли этот код стандартам, ожидаемым оплачивающими клиентами.

Насколько хорошо модели ИИ справляются?

Выводы ясны: даже самые продвинутые модели ИИ испытывают трудности с этими задачами. Хотя ИИ доказал свою способность генерировать фрагменты кода и помогать с отладкой, ему все еще не хватает для обработки полной сложности фриланс-инженерной работы. Задачи, требующие креативности, решения проблем и долгосрочного планирования, по-прежнему остаются сложными.

У этого разрыва есть серьезные последствия. Роль ИИ в разработке ПО растет, но бенчмарки вроде SWE-Lancer указывают на то, что полностью автономный кодинг все еще находится далеко впереди. Пока что человеческие инженеры остаются незаменимыми, особенно для сложных проектов, выходящих за рамки простой генерации кода.

Открытый исходный код для исследований и экономических выводов

Чтобы поощрить дальнейшее изучение, команда, стоящая за SWE-Lancer, сделала ключевые ресурсы доступными публично. Исследователи могут получить доступ к унифицированному Docker-образу и подмножеству бенчмарка под названием SWE-Lancer Diamond для оценки. Соотнося производительность ИИ с фактической денежной ценностью, этот бенчмарк дает новые инсайты в то, как ИИ может повлиять на экономику и рынок рабочих мест в сфере разработки ПО.

Помимо разработки ПО, эти выводы могут быть полезны для финтех-компаний и бизнесов, которые опираются на фриланс-таланты. По мере того как модели ИИ будут улучшаться, компаниям понадобятся более надежные способы измерять финансовое и операционное влияние автоматизации. SWE-Lancer закладывает основу для понимания того, как ИИ может интегрироваться в работу по контрактам.

Шаг к будущему ИИ в разработке ПО

Выход SWE-Lancer подчеркивает важную реальность: ИИ развивается, но ему все еще сложно справляться с требованиями реального мира во фриланс-разработке ПО. Хотя инструменты ИИ могут помогать разработчикам, они пока не являются надежной заменой для квалифицированных специалистов.

Пока продолжаются исследования в области ИИ, бенчмарки вроде SWE-Lancer будут помогать отслеживать прогресс, уточнять модели и формировать обсуждения о влиянии автоматизации на экономику. Будет ли ИИ когда-нибудь полностью заменять фриланс-разработчиков, остается неопределенным, но пока человеческий подход в разработке ПО остается незаменимым.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить