Microsoft выпустила первый модель интеллектуального агента с управлением компьютером на 7 миллиардов параметров Fara-7B

robot
Генерация тезисов в процессе
AIMPACT сообщение, 16 мая (UTC+8), Microsoft выпустила Fara-7B, это их первый малый языковой модель с 7 миллиардами параметров, специально разработанная для сценариев использования в компьютерах. Эта модель использует мультимодальную декодерную архитектуру, способную принимать скриншоты изображений и текстовый контекст, прямо предсказывая цепочки мышления с параметрами и операционные действия. Построена на базе Qwen 2.5-VL (7B), поддерживает длину контекста 128k, обучалась 2,5 дня на 64 GPU H100, выпущена под лицензией MIT 24 ноября 2025 года. Fara-7B воспринимает браузерный ввод через скриншоты, сочетая внутреннее рассуждение и запись исторического состояния для предсказания следующего действия и параметров (например, координат клика), обучение основано на масштабном полностью синтезированном наборе данных. Модель способна планировать и выполнять сложные задачи (например, бронирование ресторана, подача заявки на работу, планирование путешествия и т.д.). В области безопасности и согласованности применяется метод устойчивого последующего обучения, модель обладает способностью распознавать ключевые точки, отказываться от семи типов задач, нарушающих политику использования, и при вводе личной информации или завершении покупки останавливать операции на ключевых точках. Пользователи могут развернуть и взаимодействовать через репозиторий GitHub, vllm и fara-cli, основное применение — автоматизация веб-задач. (Источник: InFoQ)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 11
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
MintCondition
· 3ч назад
После обучения — безопасность выравнивания + ключевые точки приостановки, этот дизайн явно основан на извлечённых уроках
Посмотреть ОригиналОтветить0
DepegDaydream
· 3ч назад
Полностью синтезированные данные для обучения, данные замкнуты, последующие итерации будут стоить всё дешевле.
Посмотреть ОригиналОтветить0
BlueberryStakingMachine
· 4ч назад
Обработка скриншотов и текста одновременно, мультимодальность наконец-то перестала быть модным трендом и стала необходимостью
Посмотреть ОригиналОтветить0
LatencyMonk
· 4ч назад
64 карт H100 обучают 2,5 дня, эта стоимость и эффективность ниже, чем я ожидал.
Посмотреть ОригиналОтветить0
BridgeAnxiety
· 5ч назад
Предсказание координат и параметров — это очень важно, раньше при использовании GPT-4V приходилось делать постобработку самостоятельно
Посмотреть ОригиналОтветить0
YieldBento
· 5ч назад
fara-cli напрямую через командную строку взаимодействие, гики в восторге, завтра попробую
Посмотреть ОригиналОтветить0
BluePeonyDoesn'tDrop
· 5ч назад
Могут отказаться от нарушающих правила задач и самостоятельно приостановиться, безопасность и выравнивание сделаны лучше, чем у некоторых закрытых моделей.
Посмотреть ОригиналОтветить0
PurpleMistLily
· 5ч назад
128k контекст + восприятие скриншотов, автоматизация браузера наконец-то не требует написания кучи XPath
Посмотреть ОригиналОтветить0
LonelyStoneUnderTheAurora
· 5ч назад
MIT лицензия означает, что можно коммерчески использовать и модифицировать, внутренние компании по упаковке готовы
Посмотреть ОригиналОтветить0
IdleFishDaoMember
· 5ч назад
Qwen 2.5-VL основание + полностью синтетические данные, путь синтетических данных становится все более популярным
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено