Microsoft открыла исходный код Phi-Ground: точность 4 миллиарда параметров превзошла Operator и Claude

robot
Генерация тезисов в процессе

По данным мониторинга Beating, Microsoft выпустила открытый исходный код семейства моделей Phi-Ground, специально предназначенных для решения проблемы определения «где именно на экране» при управлении компьютером с помощью ИИ. Предоставив снимок экрана и команду, модель выводит точные координаты клика. Версия с 4 миллиардами параметров, открытая для общего доступа и использующая крупную модель для планирования команд, превзошла по точности кликов на тесте Showdown такие системы, как OpenAI Operator и Claude Computer Use, а также заняла первые места во всех пяти оценках, включая ScreenSpot-Pro, при числе параметров менее соти миллиардов.

Команда провела масштабную проверку на более чем 40 миллионах данных и обнаружила, что три типа тренировочных техник, широко используемых в научных работах, полностью теряют эффективность при увеличении объема данных. Простое и эффективное решение — выводить координаты как обычные числа, например, «523, 417». Ранее несколько статей предлагали специально разработанный словарь для координат, надеясь, что модель будет произносить координаты так же, как слова, но при масштабном обучении эти новые слова учить было трудно, и это даже приводило к сбоям модели. Еще одним важным моментом является размещение текстовых команд перед изображением при вводе. Модель с односторонним чтением информации сначала читает «кликнуть на синюю иконку настроек», а затем смотрит на изображение, и при обработке пикселей уже знает, что искать; наоборот, если сначала смотреть на изображение, модель может только слепо просматривать его, что значительно ухудшает результат.

Команда также обнаружила, что обучение с подкреплением полезно и для чисто визуальных задач. Конкретный метод — многократное предсказание кликов по одному и тому же изображению, с последующим сравнением результатов, где отмечаются правильные и неправильные точки (этот подход называется DPO и относится к методам обучения с подкреплением). Даже после полного дообучения модель показывает заметное повышение точности. Ранее обучение с подкреплением использовалось преимущественно для языковых задач, требующих логического вывода, а здесь оно оказалось эффективным и для задач «смотреть на картинку и указывать», что стало неожиданным открытием. В связи с маленькими кнопками на 4K-дисплеях (одна кнопка занимает всего около 0,07% площади экрана), команда при обучении уменьшала изображение, а затем вставляла его на большую белую поверхность, имитируя реальные условия с очень мелкими элементами на высококлассных дисплеях. Этот метод особенно хорошо работает в сложных профессиональных программах, таких как Photoshop.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить