Microsoft открыла исходный код Phi-Ground: точность 4 миллиарда параметров превзошла Operator и Claude

robot
Генерация тезисов в процессе

Новости сети Coinjie, Microsoft выпустила открытый исходный код семейства моделей Phi-Ground, специально предназначенных для решения проблемы определения «где именно на экране» при управлении компьютером с помощью ИИ. Версия с 4 миллиардами параметров, открытая для общего доступа, превзошла по точности кликов такие модели, как Operator от OpenAI и Claude, в базовом тесте Showdown, а также заняла первые места во всех пяти оценках, включая Screenspot-Pro, среди моделей с менее чем 10 миллиардами параметров. Команда провела масштабную проверку на более чем 40 миллионах данных и обнаружила, что три типа тренировочных техник, часто используемых в академических работах, полностью теряют эффективность при увеличении объема данных. Эффективным методом является прямой вывод координат как обычных чисел, например «523, 417». Также команда обнаружила, что обучение с усилением полезно для чисто визуальных задач: модель делала несколько предсказаний кликов по одной и той же картинке, а затем сравнивала результаты, чтобы отличить правильные и неправильные точки. Для решения проблемы слишком маленьких кнопок на 4K-дисплеях команда во время обучения уменьшала масштаб скриншотов и наклеивала их на большую белую холст, имитируя реальную ситуацию с очень мелкими элементами на высокоразрешенных экранах. Этот метод особенно заметен при использовании сложных профессиональных программ, таких как Photoshop.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить