Fara-7B використовує скріншоти та текст для безпосереднього прогнозування координат натискання, що фактично дає ШІ очі та руки, відкритий код за ліцензією MIT — справжня бомба.

Переглянути оригінал
MeNews
Microsoft випустила першу модель інтелектуального агента для управління комп’ютером з 7 мільярдами параметрів Fara-7B
Microsoft випустила Fara-7B, мультимодальний інтелектуальний агент з 7 мільярдами параметрів, спеціально розроблений для сценаріїв використання на комп’ютерах. Може одночасно обробляти скріншоти та текст, безпосередньо прогнозуючи ланцюги мислення з параметрами та дії операцій, побудовані на Qwen 2.5-VL, з контекстом 128k, тренувався 2,5 дні на 64 блоках H100, випущено за ліцензією MIT. Він сприймає браузерний ввід через скріншоти, поєднуючи логіку та прогнозування історичного стану для визначення наступних дій та параметрів, таких як координати, залежить від масштабних повністю синтезованих даних. Має здатність планувати та виконувати складні завдання, використовує надійне додаткове навчання для безпечного вирівнювання, може відмовитися від порушуючих правил завдань і зупинитися на ключових точках. Можна розгортати та взаємодіяти через GitHub, vllm, fara-cli, використовується для автоматизації веб-сторінкових завдань.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено