Fara-7B использует скриншоты и текст для прямого предсказания координат клика, что по сути дает ИИ глаза и руки, а лицензия MIT с открытым исходным кодом — это настоящий козырь.

Посмотреть Оригинал
MeNews
Microsoft выпустила первый модель интеллектуального агента с управлением компьютером на 7 миллиардов параметров Fara-7B
Microsoft выпустила Fara-7B, мультимодальный агент с 7 миллиардами параметров, специально разработанный для сценариев использования на компьютерах. Может одновременно обрабатывать скриншоты и текст, напрямую предсказывать цепочки мышления с параметрами и операционные действия, основан на Qwen 2.5-VL, с контекстом 128k, обучен за 2,5 дня на 64 блоках H100, выпущен под лицензией MIT. Он воспринимает ввод браузера через скриншоты, сочетает рассуждения и прогнозирование исторического состояния для определения следующего действия и параметров, таких как координаты, основываясь на масштабных полностью синтезированных данных. Обладает способностью планировать и выполнять сложные задачи, использует устойчивое последующее обучение для безопасного выравнивания, умеет отклонять нарушающие правила задачи и приостанавливаться в ключевых точках. Может быть развернут и взаимодействовать через GitHub, vllm, fara-cli, используется для автоматизации веб-страничных задач.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено