Tối ưu hóa RL Fine-Tuning giúp mô hình 4B vượt qua 235B trong lĩnh vực câu hỏi đáp tài chính: Snorkel AI phát hành môi trường đào tạo FinQA mã nguồn mở

robot
Đang tạo bản tóm tắt

Theo giám sát của 1M AI News, Snorkel AI đã phát hành FinQA, một môi trường huấn luyện học tăng cường được xây dựng trên các tài liệu tài chính thực tế SEC 10-K, hiện đã được mã nguồn mở trên nền tảng OpenEnv do Meta PyTorch và Hugging Face đồng quản lý. FinQA bao gồm 290 câu hỏi tài chính được chú thích bởi các chuyên gia từ 22 công ty niêm yết công khai, bao gồm Alphabet, Amazon, Apple, Bank of America và Boeing, cung cấp cho Agent bốn công cụ MCP: liệt kê các bảng tài chính sẵn có, truy xuất cấu trúc bảng, thực thi truy vấn SQL và gửi câu trả lời. SQL áp đặt các điều kiện lọc và cấm SELECT *, buộc Agent chỉ truy xuất dữ liệu cần thiết thay vì đổ toàn bộ bảng. Snorkel AI đã hợp tác với nhóm rLLM tại Đại học California, Berkeley để tinh chỉnh Qwen3-4B bằng FinQA, qua đó đạt 59.7% trên bộ đánh giá tài chính Q&A SnorkelFinance, vượt qua cùng dòng Qwen3-235B (51.37%), với khoảng 1/60 số lượng tham số và giảm 90% chi phí suy luận. Các phát hiện chính: trong khi các mô hình lớn có thể suy luận, chúng có thể tạo ra các tên cột bị bịa đặt và bỏ qua các ràng buộc SQL; ngược lại, mô hình nhỏ hơn được huấn luyện với RL có thể gọi chính xác các công cụ, cho thấy “kỷ luật công cụ” thay vì quy mô mới là nút thắt. FinQA là môi trường mã nguồn mở đầu tiên do Snorkel AI phát hành trên OpenEnv, với kế hoạch ra mắt các môi trường doanh nghiệp đa lượt trong tương lai, bao gồm các ngành như y tế, bảo hiểm và pháp luật.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim