Microsoft lanza Fara-7B, un agente inteligente multimodal de 7 mil millones de parámetros, diseñado específicamente para escenarios de uso en computadoras. Puede procesar capturas de pantalla y texto simultáneamente, prediciendo directamente cadenas de pensamiento y acciones operativas con parámetros, construido sobre Qwen 2.5-VL, con un contexto de 128k, entrenado durante 2.5 días con 64 bloques H100, publicado bajo licencia MIT. A través de la percepción de capturas de pantalla, comprende las entradas del navegador, combinando razonamiento y predicción del estado histórico para determinar la siguiente acción y parámetros como coordenadas, dependiendo de datos sintéticos a gran escala. Posee capacidad para planificar y ejecutar tareas avanzadas, y adopta un alineamiento seguro robusto tras el entrenamiento, pudiendo rechazar tareas inapropiadas y pausar en puntos clave. Se puede desplegar e interactuar mediante GitHub, vllm, fara-cli, para tareas automatizadas en páginas web.

MeNews

2026-05-27 00:32:37

Generación de resúmenes en curso

AIMPACT Mensaje, 16 de mayo (UTC+8), Microsoft lanzó Fara-7B, su primer modelo de lenguaje inteligente de 7 mil millones de parámetros diseñado específicamente para escenarios de uso en computadoras.
El modelo utiliza una arquitectura de decodificador multimodal, capaz de recibir imágenes de capturas de pantalla y contexto de texto, prediciendo directamente cadenas de pensamiento parametrizadas y acciones operativas.
Construido sobre Qwen 2.5-VL (7B), soporta una longitud de contexto de 128k, entrenado durante 2.5 días en 64 GPU H100, y lanzado bajo licencia MIT el 24 de noviembre de 2025.
Fara-7B percibe entradas del navegador mediante capturas de pantalla, combinando razonamiento interno y registro del estado histórico para predecir la siguiente acción y sus parámetros (como coordenadas de clic), entrenado con un conjunto de datos sintéticos a gran escala.
El modelo puede planificar y ejecutar tareas avanzadas (como reservar restaurantes, solicitar empleos, planificar viajes, etc.).
En cuanto a alineación de seguridad, utiliza métodos de entrenamiento posterior robusto, posee capacidad de reconocimiento de puntos clave, puede rechazar siete tipos de tareas que violen las políticas de uso, y en puntos críticos como ingresar información personal o completar compras, pausa la operación.
Los usuarios pueden desplegar e interactuar mediante repositorios en GitHub, vllm y la herramienta fara-cli, principalmente para tareas automatizadas en páginas web.
(Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
11
Republicar
Compartir

Comentar

Añadir un comentario

MintCondition

· hace8h

Post-entrenamiento de alineación segura + pausa en puntos clave, esta idea de diseño claramente refleja las lecciones aprendidas

Ver originalResponder0

DepegDaydream

· hace8h

Entrenamiento con datos sintéticos completos, el ciclo de datos está cerrado, y los costos de iteración futuros serán cada vez menores.

Ver originalResponder0

BlueberryStakingMachine

· hace9h

Procesar capturas de pantalla y texto simultáneamente, la multimodalidad finalmente ya no es solo una novedad, sino una necesidad real

Ver originalResponder0

LatencyMonk

· hace9h

64 tarjetas H100 entrenando 2.5 días, este costo y eficiencia son más bajos de lo que imaginaba

Ver originalResponder0

BridgeAnxiety

· hace9h

Predecir coordenadas y parámetros es demasiado crucial, antes con GPT-4V todavía tenía que hacer procesamiento posterior uno mismo

Ver originalResponder0

YieldBento

· hace9h

fara-cli interacción directa por línea de comandos, alegría de los geeks, lo probaré mañana

Ver originalResponder0

BluePeonyDoesn'tDrop

· hace9h

Puede rechazar tareas que violen las reglas y además pausar de forma proactiva, esto hace que la alineación de seguridad sea más cuidadosa que algunos modelos de código cerrado.

Ver originalResponder0

PurpleMistLily

· hace9h

¡Con 128k de contexto y percepción de capturas de pantalla, la automatización del navegador finalmente ya no requiere escribir un montón de XPath!

Ver originalResponder0

LonelyStoneUnderTheAurora

· hace9h

La licencia MIT significa que se puede modificar y usar comercialmente, las empresas de envoltura nacionales están preparadas

Ver originalResponder0

IdleFishDaoMember

· hace9h

Qwen 2.5-VL base + datos sintéticos, la ruta de datos sintéticos se vuelve cada vez más dominante

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.23M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.5K Popularidad
#
IsraelStrikesIranBTCPlunges
49.57K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularidad
#
MicronMarketCapBreaks1Trillion
38.62K Popularidad

Fijado

Microsoft lanza el primer modelo de agente inteligente controlado por computadora con 7 mil millones de parámetros, Fara-7B

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado