Microsoft lanza el primer modelo de agente inteligente controlado por computadora con 7 mil millones de parámetros, Fara-7B

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 16 de mayo (UTC+8), Microsoft lanzó Fara-7B, su primer modelo de lenguaje inteligente de 7 mil millones de parámetros diseñado específicamente para escenarios de uso en computadoras.
El modelo utiliza una arquitectura de decodificador multimodal, capaz de recibir imágenes de capturas de pantalla y contexto de texto, y predecir directamente cadenas de pensamiento parametrizadas y acciones operativas.
Construido sobre Qwen 2.5-VL (7B), soporta una longitud de contexto de 128k, entrenado durante 2.5 días en 64 GPU H100, y lanzado bajo licencia MIT el 24 de noviembre de 2025.
Fara-7B percibe entradas del navegador mediante capturas de pantalla, combinando razonamiento interno y registro del estado histórico para predecir la siguiente acción y sus parámetros (como coordenadas de clic), el entrenamiento depende de un conjunto de datos sintéticos a gran escala.
El modelo puede planificar y ejecutar tareas avanzadas (como reservar restaurantes, solicitar empleos, planificar viajes, etc.).
En cuanto a alineación de seguridad, utiliza métodos de entrenamiento posterior robusto, posee capacidad de reconocimiento de puntos clave, puede rechazar siete tipos de tareas que violen las políticas de uso, y en puntos críticos como ingresar información personal o completar compras, pausa la operación.
Los usuarios pueden desplegar e interactuar mediante repositorios en GitHub, vllm y la herramienta fara-cli, principalmente para tareas automatizadas en páginas web.
(Origen: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • 3
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
AirdropNightwatch
· hace5h
En el tema de la automatización del navegador, siento que va a tener que enfrentarse directamente a Browser-use y Computer-use.
Ver originalResponder0
MintCondition
· hace6h
Automatización de tareas web, finalmente ya no es necesario escribir un montón de selectores
Ver originalResponder0
SaveABitOnGasFees
· hace6h
¿ Qué proporción de los datos se utilizó para el ajuste posterior al entrenamiento ? La publicación del artículo está próxima.
Ver originalResponder0
GateUser-83c80dd0
· hace6h
7B parámetros para planificación de agentes, liviano pero con límites de capacidad que deben ser probados.
Ver originalResponder0
GateUser-bee672a5
· hace6h
fara-cli experiencia de despliegue pendiente de prueba, espero que no sea como algunos proyectos con documentación deficiente
Ver originalResponder0
Half-SectionSucculent
· hace6h
Predicción de coordenadas + cadena de pensamiento, el control de granularidad fina es mucho más potente que la API de texto puro
Ver originalResponder0
0xLateCoffee
· hace6h
128k contexto + percepción de capturas de pantalla, esta combinación tiene algo.
Ver originalResponder0
CandleChaser
· hace6h
Aprobación positiva de la licencia MIT, 7B puede ejecutarse localmente
Ver originalResponder0