DeepMind phát hành trợ lý nghiên cứu toán học AI: kiến trúc đa tác nhân đánh bại GPT-5.5Pro, còn giải được bài toán khó trước đây "chưa ai giải được"

Theo theo dõi Beating, Google DeepMind đã phát hành AI cộng nhà toán học, một bàn nghiên cứu tương tác đa tác nhân dành cho các nhà toán học. Hệ thống này đạt tỷ lệ chính xác 47,9% trên tiêu chuẩn nghiên cứu cấp độ khó nhất hiện tại FrontierMath Tier 4 (giải quyết 23/48 câu hỏi), vượt xa kỷ lục trước đó của GPT-5.5 Pro là 39,6%. Hệ thống này không sử dụng nền tảng thế hệ mới, mà trực tiếp dùng Gemini 3.1 Pro. Mẫu này chạy độc lập Tier 4 chỉ đạt 19%, nhưng khi thêm khung tác nhân, thành tích tăng gấp đôi trở lên. DeepMind đã xây dựng cho nó một kiến trúc nhiều lớp: lớp trên cùng là “Điều phối dự án” phân chia nhiệm vụ nghiên cứu thành nhiều luồng công việc, sau đó phân phát cho các tác nhân con gồm truy xuất tài liệu, viết mã và chịu trách nhiệm suy luận. Các chứng minh do hệ thống tạo ra còn phải qua một vòng đánh giá của nhiều “Tác nhân phản biện”, và chỉ khi qua mới có thể nộp. Bộ khung này chứng minh rằng: trong lĩnh vực suy luận toán học đỉnh cao, khả năng tối đa khai thác qua cách tổ chức có thể lớn hơn nhiều so với việc nâng cấp mô hình. Các bài thi thử do Epoch AI thực hiện, để tránh gian lận, đội ngũ DeepMind không nhìn thấy đề trong suốt quá trình, mỗi câu hỏi được phép chạy trong 48 giờ. Kết quả không chỉ dẫn đầu, hệ thống còn giải được 3 câu mà tất cả các mô hình trước đó đều thất bại hoàn toàn. Dù gọi là phụ trợ, nó còn hơn thế nữa, như một đồng nghiệp có khả năng sáng tạo. Chuyên gia lý thuyết nhóm Mác Lackenby đã dùng nó để giải quyết một giả thuyết mở trong sổ tay Kourovka trong nghiên cứu thực tế. Thú vị là, chiến lược ban đầu do hệ thống đề xuất bị chính tác nhân phản biện của nó đánh giá là “có thiếu sót”, nhưng Lackenby nhận ra ý tưởng tinh tế trong phương án đó, tự mình bổ sung, cuối cùng hoàn thành chứng minh. Hiện tại, AI cộng nhà toán học chỉ mở thử nghiệm nội bộ cho một số ít nhà toán học.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim