Fara-7B utiliza capturas de pantalla + texto para predecir directamente las coordenadas de clic, lo que equivale a equipar a la IA con ojos y manos, y su licencia MIT de código abierto es aún más impresionante.

Ver original
MeNews
Microsoft lanza el primer modelo de agente inteligente controlado por computadora con 7 mil millones de parámetros, Fara-7B
Microsoft lanza Fara-7B, un agente inteligente multimodal de 7 mil millones de parámetros, diseñado específicamente para escenarios de uso en computadoras. Puede procesar capturas de pantalla y texto simultáneamente, predecir directamente cadenas de pensamiento y acciones operativas con parámetros, construido sobre Qwen 2.5-VL, con un contexto de 128k, entrenado durante 2.5 días con 64 bloques H100, publicado bajo licencia MIT. A través de la percepción de capturas de pantalla del ingreso del navegador, combina razonamiento y predicción del estado histórico para determinar la próxima acción y parámetros como coordenadas, dependiendo de datos sintéticos a gran escala. Posee capacidad para planificar y ejecutar tareas avanzadas, y utiliza un alineamiento seguro robusto post-entrenamiento, pudiendo rechazar tareas inapropiadas y pausar en puntos clave. Se puede desplegar e interactuar mediante GitHub, vllm, fara-cli, para tareas automatizadas en páginas web.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado