Microsoft випустила першу модель інтелектуального агента для управління комп’ютером з 7 мільярдами параметрів Fara-7B

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 16 травня (UTC+8), Microsoft випустила Fara-7B — це її перша 7-модельна інтелектуальна модель малих мов, спеціально розроблена для сценаріїв використання на комп’ютерах. Ця модель використовує архітектуру мультимодального декодера, здатна приймати знімки екрана та текстовий контекст, безпосередньо прогнозуючи параметризовані ланцюги мислення та операційні дії. Побудована на основі Qwen 2.5-VL (7B), підтримує довжину контексту 128k, тренувалася 2,5 дні на 64 GPU H100, випущена за ліцензією MIT 24 листопада 2025 року. Fara-7B через знімки екрана сприймає введення браузера, поєднуючи внутрішнє мислення та історію станів для прогнозування наступних дій та параметрів (наприклад, координат кліку), тренування базується на масштабному повністю синтезованому наборі даних. Модель здатна планувати та виконувати складні завдання (наприклад, бронювання ресторану, подача заявки на роботу, планування подорожі тощо). У сфері безпеки та узгодженості застосовуються методи стабільного додаткового навчання, модель має здатність розпізнавати ключові точки, відмовлятися від семи типів завдань, що порушують політику використання, та зупиняти операції при введенні особистої інформації або завершенні покупки. Користувачі можуть розгортати та взаємодіяти через репозиторій GitHub, vllm та інструмент fara-cli, основне застосування — автоматизація веб-завдань. (Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 11
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
MintCondition
· 5год тому
Після тренувальної безпеки вирівнювання + ключові точки паузи, цей підхід до дизайну явно враховує отримані уроки
Переглянути оригіналвідповісти на0
DepegDaydream
· 5год тому
Повністю синтетичне навчання даних, цикл даних завершено, подальші ітерації будуть коштувати все менше
Переглянути оригіналвідповісти на0
BlueberryStakingMachine
· 6год тому
Обробляти одночасно скріншоти та текст, мультимодальність нарешті стала не просто модною фішкою, а необхідністю
Переглянути оригіналвідповісти на0
LatencyMonk
· 7год тому
64 карт H100 тренуються 2,5 днів, ця вартість і ефективність виявилися нижчими, ніж я очікував.
Переглянути оригіналвідповісти на0
BridgeAnxiety
· 7год тому
Прогнозування координат і параметрів — це надзвичайно важливо, раніше з GPT-4V потрібно було самостійно обробляти результати.
Переглянути оригіналвідповісти на0
YieldBento
· 7год тому
fara-cli безпосередньо через командний рядок, захоплення для гіків, спробую вже завтра
Переглянути оригіналвідповісти на0
BluePeonyDoesn'tDrop
· 7год тому
Можна відмовитися від порушуючих правил завдань і навмисно призупинитися, це безпека вирівнювання зроблено детальніше, ніж у деяких закритих моделях.
Переглянути оригіналвідповісти на0
PurpleMistLily
· 7год тому
128k контексту + сприйняття скріншотів, автоматизація браузера нарешті більше не вимагає писати купу XPath
Переглянути оригіналвідповісти на0
LonelyStoneUnderTheAurora
· 7год тому
Ліцензія MIT означає, що можна комерційно модифікувати, внутрішні компанії-оболонки готові
Переглянути оригіналвідповісти на0
IdleFishDaoMember
· 7год тому
Qwen 2.5-VL база + повністю синтезовані дані, шлях синтезованих даних стає все більш популярним
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено