Microsoft випустила Fara-7B, мультимодальний інтелектуальний агент з 7 мільярдами параметрів, спеціально розроблений для сценаріїв використання на комп’ютерах. Може одночасно обробляти скріншоти та текст, безпосередньо прогнозуючи ланцюги мислення з параметрами та операційні дії, побудовані на Qwen 2.5-VL, з контекстом 128k, тренувався 2,5 дні на 64 блоках H100, випущено за ліцензією MIT. Він сприймає браузерний ввід через скріншоти, поєднуючи логіку та прогнозування історичного стану для визначення наступних дій та параметрів, таких як координати, залежить від масштабних повністю синтезованих даних. Має здатність планувати та виконувати складні завдання, використовує надійне додаткове навчання для безпечного вирівнювання, може відмовитися від порушуючих правил завдань і зупинитися на ключових точках. Можна розгортати та взаємодіяти через GitHub, vllm, fara-cli для автоматизації веб-завдань.

MeNews

2026-05-27 00:32:37

Генерація анотацій у процесі

AIMPACT повідомлення, 16 травня (UTC+8), Microsoft випустила Fara-7B — це її перша 7-модельна інтелектуальна модель малих мов, спеціально розроблена для сценаріїв використання на комп’ютерах. Ця модель використовує архітектуру мультимодального декодера, здатна приймати знімки екрана та текстовий контекст, безпосередньо прогнозуючи параметризовані ланцюги мислення та операційні дії. Побудована на основі Qwen 2.5-VL (7B), підтримує довжину контексту 128k, тренувалася 2,5 дні на 64 GPU H100, випущена за ліцензією MIT 24 листопада 2025 року. Fara-7B через знімки екрана сприймає введення браузера, поєднуючи внутрішнє мислення та історію станів для прогнозування наступних дій та параметрів (наприклад, координат кліку), тренування базується на масштабному повністю синтезованому наборі даних. Модель здатна планувати та виконувати складні завдання (наприклад, бронювання ресторану, подача заявки на роботу, планування подорожі тощо). У сфері безпеки та узгодженості застосовуються методи стабільного додаткового навчання, модель має здатність розпізнавати ключові точки, відмовлятися від семи типів завдань, що порушують політику використання, та зупиняти операції при введенні особистої інформації або завершенні покупки. Користувачі можуть розгортати та взаємодіяти через репозиторій GitHub, vllm та інструмент fara-cli, основне застосування — автоматизація веб-завдань. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

10 лайків

Нагородити
10
11
Репост
Поділіться

Прокоментувати

Додати коментар

MintCondition

· 5год тому

Після тренувальної безпеки вирівнювання + ключові точки паузи, цей підхід до дизайну явно враховує отримані уроки