OpenAI запускает SWE-Lancer: новый тест AI для реальной фриланс-программирования


Откройте для себя лучшие новости и события в сфере финтеха!

Подпишитесь на рассылку FinTech Weekly

Читают руководители в JP Morgan, Coinbase, Blackrock, Klarna и др.


Новый стандарт для оценки навыков программирования ИИ в гиг-экономике

Искусственный интеллект выходит на рынок фриланс-разработки с новым эталоном, призванным проверить его способности к коду на реальных задачах. Называемый SWE-Lancer, этот бенчмарк, представленный OpenAI, оценивает производительность ИИ, используя более 1 400 реальных задач по фриланс-инженерии ПО с Upwork, совокупная стоимость которых составляет $1 миллион выплат.

Инициатива направлена на то, чтобы дать более четкое представление о возможностях ИИ в профессиональной среде. Вместо опоры на синтетические задачи по программированию SWE-Lancer использует задачи, которые были выполнены и оплачены реальными компаниями, обеспечивая более реалистичную меру эффективности ИИ в разработке ПО.

Реальные фриланс-заказы, реальные сложности

Большинство бенчмарков для ИИ в кодинге сосредоточены на хорошо определенных проблемах с предсказуемыми решениями. SWE-Lancer отличается. Набор данных включает широкий спектр задач — от исправлений ошибок за $50 до сложных реализаций функций за $32 000. Некоторые задания проверяют способность ИИ писать код, а другие требуют принятия решений — моделируя роль инженерного менеджера, выбирая между конкурирующими техническими предложениями.

Чтобы обеспечить точность, сквозные тесты тройным образом верифицируются опытными инженерами, а управленческие решения оцениваются по сравнению с решениями исходных менеджеров по найму. Бенчмарк измеряет не только то, может ли ИИ писать код — он оценивает, соответствует ли этот код стандартам, ожидаемым платящими клиентами.

Насколько хорошо работают модели ИИ?

Выводы однозначны: даже самые продвинутые модели ИИ испытывают трудности с этими задачами. Хотя ИИ доказал свою способность генерировать фрагменты кода и помогать с отладкой, он все еще не справляется с полной сложностью фриланс-инженерной работы. Задачи, требующие креативности, решения проблем и долгосрочного планирования, остаются сложными.

Этот разрыв имеет серьезные последствия. Роль ИИ в разработке ПО растет, но бенчмарки вроде SWE-Lancer указывают на то, что полностью автономное кодирование все еще далеко. Пока что человеческие инженеры по-прежнему незаменимы, особенно для сложных проектов, выходящих за рамки простой генерации кода.

Открытый исходный код для исследований и экономических инсайтов

Чтобы поощрить дальнейшее изучение, команда, стоящая за SWE-Lancer, сделала ключевые ресурсы доступными публично. Исследователи могут получить доступ к унифицированному Docker-образу и к части бенчмарка, называемой SWE-Lancer Diamond, для оценки. Сопоставляя производительность ИИ с реальной денежной ценностью, этот бенчмарк дает новые инсайты о том, как ИИ может повлиять на экономику и рынок труда в сфере программной инженерии.

Помимо разработки ПО, эти инсайты могут быть полезны для финтех-компаний и бизнесов, которые опираются на фриланс-таланты. По мере улучшения моделей ИИ компаниям понадобятся более надежные способы измерять финансовое и операционное влияние автоматизации. SWE-Lancer закладывает основу для понимания того, как ИИ может встраиваться в контрактную работу.

Шаг в будущее ИИ в разработке ПО

Публикация SWE-Lancer подчеркивает важную реальность: ИИ развивается, но все еще испытывает трудности с требованиями реального мира во фриланс-разработке ПО. Хотя ИИ-инструменты могут помогать разработчикам, они пока не являются надежной заменой квалифицированным специалистам.

По мере продолжения исследований в области ИИ бенчмарки вроде SWE-Lancer будут помогать отслеживать прогресс, улучшать модели и формировать обсуждения об экономических эффектах автоматизации. О том, заменит ли ИИ когда-либо полностью фриланс-разработчиков, остается неясным, но пока что человеческий фактор в разработке ПО остается незаменимым.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить