El ajuste fino de RL permite que el modelo de 4B supere al de 235B en preguntas financieras: Snorkel AI lanza un entorno de entrenamiento FinQA de código abierto

robot
Generación de resúmenes en curso

Según el monitoreo de 1M AI News, Snorkel AI ha lanzado FinQA, un entorno de entrenamiento de aprendizaje por refuerzo construido sobre documentos financieros reales SEC 10-K, que ahora se ha publicado como código abierto en la plataforma OpenEnv, mantenida conjuntamente por Meta PyTorch y Hugging Face. FinQA abarca 290 preguntas financieras anotadas por expertos de 22 empresas que cotizan públicamente, incluidas Alphabet, Amazon, Apple, Bank of America y Boeing, proporcionando al Agente cuatro herramientas MCP: listar las tablas financieras disponibles, recuperar las estructuras de las tablas, ejecutar consultas SQL y enviar respuestas. SQL aplica condiciones de filtrado y prohíbe SELECT *, lo que obliga al Agente a recuperar solo los datos necesarios en lugar de volcar la tabla completa. Snorkel AI colaboró con el equipo rLLM de la Universidad de California, Berkeley, para ajustar Qwen3-4B usando FinQA, lo que dio como resultado una puntuación del 59.7% en el benchmark de preguntas y respuestas financieras SnorkelFinance, superando a la misma serie Qwen3-235B (51.37%), con aproximadamente 1/60 del número de parámetros y una reducción del 90% en el coste de inferencia. Hallazgos clave: si bien los modelos grandes pueden razonar, pueden generar nombres de columnas alucinados e ignorar las restricciones de SQL; en cambio, el modelo más pequeño entrenado con RL puede invocar herramientas con precisión, lo que indica que el cuello de botella es la “disciplina de herramientas” más que la escala. FinQA es el primer entorno de código abierto lanzado por Snorkel AI en OpenEnv, con planes de lanzar en el futuro entornos empresariales de múltiples turnos que cubran industrias como la salud, el seguro y el derecho.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado