RL Fine-Tuning Memungkinkan Model 4B Mengungguli 235B dalam Pertanyaan dan Jawaban Keuangan: Snorkel AI Rilis Lingkungan Pelatihan FinQA Sumber Terbuka

robot
Pembuatan abstrak sedang berlangsung

Berdasarkan pemantauan oleh 1M AI News, Snorkel AI telah merilis FinQA, sebuah lingkungan pelatihan reinforcement learning yang dibangun di atas dokumen keuangan SEC 10-K yang nyata, kini telah dibuka sumbernya di platform OpenEnv yang dikelola bersama oleh Meta PyTorch dan Hugging Face. FinQA mencakup 290 pertanyaan keuangan yang dianotasi oleh para ahli dari 22 perusahaan publik, termasuk Alphabet, Amazon, Apple, Bank of America, dan Boeing, yang memberikan Agent empat alat MCP: mencantumkan tabel keuangan yang tersedia, mengambil struktur tabel, mengeksekusi kueri SQL, dan mengirimkan jawaban. SQL menerapkan kondisi penyaringan dan melarang SELECT *, memaksa Agent untuk hanya mengambil data yang diperlukan alih-alih membuang seluruh tabel. Snorkel AI berkolaborasi dengan tim rLLM di University of California, Berkeley, untuk menyempurnakan Qwen3-4B menggunakan FinQA, menghasilkan skor 59,7% pada benchmark Q&A keuangan SnorkelFinance, melampaui seri Qwen3-235B yang sama (51,37%), dengan sekitar 1/60 jumlah parameter dan pengurangan biaya inferensi sebesar 90%. Temuan utama: sementara model besar dapat bernalar, mereka dapat menghasilkan nama kolom yang halusinasi dan mengabaikan kendala SQL; sebagai perbandingan, model yang lebih kecil yang dilatih dengan RL dapat memanggil alat dengan akurat, menunjukkan bahwa “disiplin alat” bukan skala yang menjadi hambatan. FinQA adalah lingkungan open-source pertama yang dirilis oleh Snorkel AI di OpenEnv, dengan rencana meluncurkan lingkungan enterprise multi-turn yang mencakup industri seperti kesehatan, asuransi, dan hukum di masa mendatang.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan