Microsoft відкрила вихідний код Phi-Ground: 4 мільярди параметрів, точність клацання перемогла Operator і Claude

robot
Генерація анотацій у процесі

За даними моніторингу Beating, компанія Microsoft відкрила вихідний код сімейства моделей Phi-Ground, спеціально для вирішення проблеми «де саме на екрані» при керуванні комп’ютером за допомогою штучного інтелекту. Надано скріншот екрана та команду, модель видає точні координати кліку. Відкрита версія з 4 мільярдами параметрів у поєднанні з великими моделями для планування команд показала точність кліків понад OpenAI Operator і Claude Computer Use у базовому тесті Showdown, а також зайняла перше місце у п’яти оцінках, включаючи ScreenSpot-Pro, з кількістю параметрів менше сотні мільярдів.

Команда провела масштабну перевірку на понад 40 мільйонах даних і виявила, що три типи навчальних технік, які раніше широко використовувалися в академічних роботах, втратили свою ефективність при збільшенні обсягу даних. Найпростіший і найефективніший підхід — подавати координати у вигляді звичайних чисел, наприклад, «523, 417». Раніше кілька статей пропонували спеціальний словник для координат, щоб модель могла говорити їх так само, як слова, але при масштабному навчанні ці нові слова виявилися важкими для засвоєння і навіть спричиняли збої моделі. Ще одним важливим моментом є подача текстової команди перед зображенням. Оскільки великий модель читає інформацію у одному напрямку, спочатку вона читає «клацнути на синю іконку налаштувань», а потім дивиться на зображення, і при обробці пікселів вже знає, що потрібно шукати; навпаки, якщо спочатку дивитись на зображення, модель може лише сліпо сканувати його, що значно погіршує результати.

Команда також виявила, що підкріплююче навчання корисне навіть для чисто візуальних завдань. Конкретно, модель виконує кілька передбачень кліків по одному й тому ж зображенню, а потім порівнює результати правильних і неправильних кліків для подальшого навчання (цей метод називається DPO і належить до підкріплюючого навчання). Навіть після повного доопрацювання моделі ця техніка суттєво підвищує точність. Раніше підкріплююче навчання зазвичай застосовувалося лише для мовних завдань, що вимагають логічних висновків, але тепер воно показало свою ефективність і в чисто візуальних задачах «дивись і клацай», що стало несподіванкою. Щоб вирішити проблему з маленькими кнопками на 4K-екранах (одна кнопка може займати лише 0,07% площі екрана), команда під час тренування зменшувала масштаб скріншотів і наклеювала їх на велику білу полотнище, імітуючи реальні сцени з дуже малими елементами на високороздільних екранах. Цей прийом особливо ефективний у складних професійних програмах, таких як Photoshop.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити