Microsoft відкрила вихідний код Phi-Ground: 4 мільярди параметрів, точність клацання перемогла Operator і Claude

robot
Генерація анотацій у процесі

Меседж з Coinjie.com, Microsoft відкрила код сімейства моделей Phi-Ground, спеціально для вирішення проблеми «де саме на екрані» при керуванні комп’ютером за допомогою ШІ. Версія з 4 мільярдами параметрів, що була відкритою, перевищила точність класифікації OpenAI Operator і Claude на базовому тесті Showdown, а також зайняла перше місце у п’яти оцінках, включаючи Screenspot-Pro, серед моделей з менше ніж сотнею мільярдів параметрів. Команда провела масштабну перевірку на більш ніж 40 мільйонах даних і виявила, що три типи тренувальних технік, які раніше були поширені в академічних статтях, втратили свою ефективність при збільшенні обсягу даних. Ефективним підходом є безпосередній вивід координат у вигляді звичайних чисел, наприклад, «523, 417». Також команда виявила, що підкріплювальне навчання корисне навіть для чисто візуальних завдань, шляхом багаторазового прогнозування кліків на одній і тій самій картинці та порівняння результатів правильних і неправильних кліків. Щоб вирішити проблему надто малих кнопок на 4K-дисплеях, команда під час тренування зменшувала масштаб скріншотів і накладала їх на велику білу полотнину, імітуючи реальні сцени з дуже малими елементами на високороздільних екранах. Цей прийом особливо ефективний у складних професійних програмах, таких як Photoshop.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити