Datacurve эта волна DeepSWE с открытым исходным кодом действительно хороша, покрытие пяти языков, средняя глубина ответов 668 строк, также выпущен фреймворк Mini-SWE-Agent, в будущем можно будет измерять способность больших моделей к коду.

Посмотреть Оригинал
CoinNetwork
Datacurve открытый исходный код интеллектуального агента DeepSWE, объем кода которого в пять раз превышает SWE-Bench
Datacurve объявила об открытом исходном коде бенчмарка DeepSWE для программирования интеллектуальных агентов, оценивающего автономные навыки больших моделей. Бенчмарк включает 113 задач, охватывающих пять языков: TypeScript, Go, Python, JavaScript, Rust, в среднем требующих 668 строк参考解答. Подсказки и инструкции в среднем содержат 2158 символов, подчеркивая глубокое рассуждение при минимальных командах. Тестирование проводится с использованием открытой рамочной системы Mini-SWE-Agent, что обеспечивает объективность. Уровень решений GPT-5.5 составляет 70%, у GPT-5.4 и Claude-opus-4.7 — 56% и 54% соответственно.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено