Согласно сообщению Beating, открытая модель Phi-Ground может выводить точные координаты кликов после ввода инструкций в виде скриншотов. Версия с 4 миллиардами параметров, основанная на планировании инструкций, превосходит в benchmark-ах таких как Showdown OpenAI Operator и Claude Computer Use, а также лидирует среди аналогичных моделей по нескольким оценкам. Команда проверила на 40 миллионах данных и обнаружила, что наиболее эффективно указывать координаты в виде обычных чисел, а также вводить текстовые инструкции перед изображением для реализации одностороннего чтения изображений. Также модель улучшила показатели в чисто визуальных задачах с помощью обучения с усилением DPO, а в сценариях с высокими разрешениями использовала метод обучения, при котором уменьшенные скриншоты наклеиваются на белый холст, что значительно улучшает результаты в Photoshop и подобных приложениях.

BlockBeatNews

2026-05-10 04:21:00

Генерация тезисов в процессе

По данным мониторинга Beating, Microsoft выпустила открытый исходный код семейства моделей Phi-Ground, специально предназначенных для решения проблемы определения «где именно на экране» при управлении компьютером с помощью ИИ. Предоставив снимок экрана и команду, модель выводит точные координаты клика. Версия с 4 миллиардами параметров, открытая для общего доступа и использующая крупную модель для планирования команд, превзошла по точности кликов на тесте Showdown такие системы, как OpenAI Operator и Claude Computer Use, а также заняла первые места во всех пяти оценках, включая ScreenSpot-Pro, при числе параметров менее соти миллиардов.

Команда провела масштабную проверку на более чем 40 миллионах данных и обнаружила, что три типа тренировочных техник, широко используемых в научных работах, полностью теряют эффективность при увеличении объема данных. Простое и эффективное решение — выводить координаты как обычные числа, например, «523, 417». Ранее несколько статей предлагали специально разработанный словарь для координат, надеясь, что модель будет произносить координаты так же, как слова, но при масштабном обучении эти новые слова учить было трудно, и это даже приводило к сбоям модели. Еще одним важным моментом является размещение текстовых команд перед изображением при вводе. Модель с односторонним чтением информации сначала читает «кликнуть на синюю иконку настроек», а затем смотрит на изображение, и при обработке пикселей уже знает, что искать; наоборот, если сначала смотреть на изображение, модель может только слепо просматривать его, что значительно ухудшает результат.

Команда также обнаружила, что обучение с подкреплением полезно и для чисто визуальных задач. Конкретный метод — многократное предсказание кликов по одному и тому же изображению, с последующим сравнением результатов, где отмечаются правильные и неправильные точки (этот подход называется DPO и относится к методам обучения с подкреплением). Даже после полного дообучения модель показывает заметное повышение точности. Ранее обучение с подкреплением использовалось преимущественно для языковых задач, требующих логического вывода, а здесь оно оказалось эффективным и для задач «смотреть на картинку и указывать», что стало неожиданным открытием. В связи с маленькими кнопками на 4K-дисплеях (одна кнопка занимает всего около 0,07% площади экрана), команда при обучении уменьшала изображение, а затем вставляла его на большую белую поверхность, имитируя реальные условия с очень мелкими элементами на высококлассных дисплеях. Этот метод особенно хорошо работает в сложных профессиональных программах, таких как Photoshop.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.05M Популярность
#
BTCBackAbove80K
59.45M Популярность
#
IsraelStrikesIranBTCPlunges
45.63K Популярность
#
JapanTokenizesGovernmentBonds
1.9M Популярность
#
#DailyPolymarketHotspot
871.95K Популярность

Закрепить

Карта сайта

Microsoft открыла исходный код Phi-Ground: точность 4 миллиарда параметров превзошла Operator и Claude

Популярные темы

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закрепить