DeepMind Ra mắt Trợ lý Nghiên cứu Toán AI: Khung làm việc Đa tác nhân vượt qua GPT-5.5 Pro và Giải quyết các vấn đề Trước đây không thể giải quyết

Theo giám sát của Dongcha Beating, Google DeepMind đã phát hành một cộng tác viên toán học AI, một nền tảng nghiên cứu tương tác dành cho các nhà toán học sử dụng kiến trúc đa tác nhân. Hệ thống đạt tỷ lệ chính xác 47,9% trên chuẩn mực toán học cấp độ nghiên cứu khó nhất hiện nay, FrontierMath Tier 4 (giải quyết 23 trong số 48 bài toán), vượt xa kỷ lục trước đó là 39,6% do GPT-5.5 Pro thiết lập. Hệ thống này không sử dụng mô hình nền tảng thế hệ mới mà thay vào đó dùng Gemini 3.1 Pro. Mô hình này chỉ đạt 19% chính xác trên Tier 4, nhưng với sự bổ sung của khung tác nhân, hiệu suất của nó đã hơn gấp đôi. DeepMind trang bị cho nó kiến trúc nhiều lớp: ở cấp cao nhất, một ‘điều phối dự án’ phân chia các nhiệm vụ nghiên cứu thành nhiều quy trình làm việc, sau đó phân phối cho các tác nhân phụ chịu trách nhiệm truy xuất tài liệu, lập trình và lý luận. Các chứng minh được tạo ra phải trải qua quá trình xem xét bởi nhiều ‘tác nhân xem xét’ trước khi có thể nộp. Cấu trúc phức tạp này cho thấy khả năng gia tăng thu được qua việc phối hợp có thể vượt xa những gì đạt được từ việc nâng cấp mô hình trong lý luận toán học đỉnh cao. Việc kiểm tra mù được thực hiện bởi Epoch AI, và để tránh gian lận, nhóm DeepMind không xem câu hỏi trong suốt quá trình, mỗi câu hỏi được phép chạy trong 48 giờ. Kết quả không chỉ đứng đầu bảng xếp hạng mà còn giải quyết được ba bài toán mà trước đó tất cả các mô hình đều bó tay. Mặc dù gọi là trợ lý, nó hoạt động giống như một đồng nghiệp sáng tạo hơn. Chuyên gia lý thuyết nhóm Marc Lackenby đã sử dụng nó trong nghiên cứu thực tế để giải quyết một giả thuyết công khai từ sổ tay Kourovka. Thú vị là, chiến lược ban đầu do hệ thống đề xuất bị chính tác nhân xem xét của nó đánh dấu là ‘mâu thuẫn’, nhưng Lackenby nhận ra ý tưởng thông minh ẩn trong đề xuất bị từ chối, tự mình điền vào các khoảng trống và cuối cùng hoàn thành chứng minh. Hiện tại, cộng tác viên toán học AI chỉ dành cho thử nghiệm nội bộ bởi một số nhà toán học hạn chế.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim