OpenAI заявляє, що бенчмарк, який використовується для оцінки навичок кодування штучного інтелекту, «забруднений» — ось чому
Коротко
OpenAI стверджує, що SWE-bench Verified більше не відображає реальні навички програмування, оскільки цей бенчмарк нібито був забруднений. Зараз вони просувають SWE-bench Pro як більш жорсткий замінник. Результати знизилися з приблизно 70% до приблизно 23% на новішому бенчмарку,
Кількість, яку має кожна велика лабораторія штучного інтелекту, становить б...
Decrypt·02-24 21:35
