По словам Beating, Microsoft недавно выпустила открытый исходный код семейства моделей Phi-Ground, предназначенных для решения задачи «где кликнуть на экране компьютера» в области искусственного интеллекта. Эта версия с 4 миллиардами параметров, объединенная с более крупной языковой моделью для планирования инструкций, превзошла по точности кликов модели OpenAI Operator и Claude Computer Use в бенчмарке Showdown, а также заняла первое место среди всех моделей с менее чем 10 миллиардами параметров по пяти оценкам, включая ScreenSpot-Pro. Команда обучалась на более чем 40 миллионах образцов данных и обнаружила, что три распространенные техники обучения, используемые в академических работах, становятся неэффективными при масштабировании. Ключевая идея очень проста: использовать обычные числовые координаты, например, «523, 417». Предыдущие исследования придумали специальные словари для обозначения координат, но эти методы не масштабируются. Также команда обнаружила, что размещение текстовых инструкций перед изображением повышает производительность, поскольку модель при обработке пикселей может распознавать цель. Кроме того, такие методы усиленного обучения, как DPO, после дообучения все еще могут повышать точность.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить