Згідно з повідомленням Beating, відкритий модель Phi-Ground може після додавання інструкцій до скріншоту точно виводити координати кліків. Версія з 4 мільярдами параметрів, яка використовує планування інструкцій, перевищує OpenAI Operator, Claude Computer Use у таких бенчмарках, як Showdown, і випереджає однорідні моделі у кількох оцінках. Команда перевірила на 40 мільйонах даних і виявила, що найефективніше писати координати просто цифрами, а також вводити текстові інструкції перед зображенням для реалізації одностороннього читання зображень. Також за допомогою підкріпленого навчання DPO покращили продуктивність у чисто візуальних завданнях, а у сценаріях з високою роздільною здатністю використовували метод тренування, при якому зменшені скріншоти наклеювалися на білий холст, що дало помітний ефект у таких програмах, як Photoshop.

BlockBeatNews

2026-05-10 04:21:00

Генерація анотацій у процесі

За даними моніторингу Beating, компанія Microsoft відкрила вихідний код сімейства моделей Phi-Ground, спеціально для вирішення проблеми «де саме на екрані» при керуванні комп’ютером за допомогою штучного інтелекту. Надано скріншот екрана та команду, модель видає точні координати кліку. Відкрита версія з 4 мільярдами параметрів у поєднанні з великими моделями для планування команд показала точність кліків понад OpenAI Operator і Claude Computer Use у базовому тесті Showdown, а також зайняла перше місце у п’яти оцінках, включаючи ScreenSpot-Pro, з кількістю параметрів менше сотні мільярдів.

Команда провела масштабну перевірку на понад 40 мільйонах даних і виявила, що три типи навчальних технік, які раніше широко використовувалися в академічних роботах, втратили свою ефективність при збільшенні обсягу даних. Найпростіший і найефективніший підхід — подавати координати у вигляді звичайних чисел, наприклад, «523, 417». Раніше кілька статей пропонували спеціальний словник для координат, щоб модель могла говорити їх так само, як слова, але при масштабному навчанні ці нові слова виявилися важкими для засвоєння і навіть спричиняли збої моделі. Ще одним важливим моментом є подача текстової команди перед зображенням. Оскільки великий модель читає інформацію у одному напрямку, спочатку вона читає «клацнути на синю іконку налаштувань», а потім дивиться на зображення, і при обробці пікселів вже знає, що потрібно шукати; навпаки, якщо спочатку дивитись на зображення, модель може лише сліпо сканувати його, що значно погіршує результати.

Команда також виявила, що підкріплююче навчання корисне навіть для чисто візуальних завдань. Конкретно, модель виконує кілька передбачень кліків по одному й тому ж зображенню, а потім порівнює результати правильних і неправильних кліків для подальшого навчання (цей метод називається DPO і належить до підкріплюючого навчання). Навіть після повного доопрацювання моделі ця техніка суттєво підвищує точність. Раніше підкріплююче навчання зазвичай застосовувалося лише для мовних завдань, що вимагають логічних висновків, але тепер воно показало свою ефективність і в чисто візуальних задачах «дивись і клацай», що стало несподіванкою. Щоб вирішити проблему з маленькими кнопками на 4K-екранах (одна кнопка може займати лише 0,07% площі екрана), команда під час тренування зменшувала масштаб скріншотів і наклеювала їх на велику білу полотнище, імітуючи реальні сцени з дуже малими елементами на високороздільних екранах. Цей прийом особливо ефективний у складних професійних програмах, таких як Photoshop.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.05M Популярність
#
BTCBackAbove80K
59.45M Популярність
#
IsraelStrikesIranBTCPlunges
45.63K Популярність
#
JapanTokenizesGovernmentBonds
1.9M Популярність
#
#DailyPolymarketHotspot
871.95K Популярність

Закріпити

карта сайту

Microsoft відкрила вихідний код Phi-Ground: 4 мільярди параметрів, точність клацання перемогла Operator і Claude

Популярні теми

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закріпити