SOOHAK chuẩn đánh giá tiết lộ những thiếu sót của mô hình AI: khả năng nhận diện các vấn đề toán học không có lời giải đều chưa vượt quá 50%

robot
Đang tạo bản tóm tắt

AIMPACT tin nhắn, ngày 17 tháng 5 (UTC+8), thử nghiệm chuẩn toán học AI mới SOOHAK do Liên minh nhà toán học 64-bit tạo ra đã tiết lộ những thiếu sót quan trọng của mô hình AI.
Bài kiểm tra này bao gồm 439 nhiệm vụ viết tay, trong đó 99 nhiệm vụ được thiết kế cố ý để không có lời giải.
Google Gemini 3 Pro dẫn đầu về các vấn đề nghiên cứu, đạt độ chính xác 30%, nhưng không có mô hình nào vượt quá 50% trong việc nhận diện các nhiệm vụ không có lời giải.
Các nghiên cứu cho thấy, nhiều tài nguyên tính toán hơn có thể nâng cao khả năng giải quyết vấn đề của mô hình, nhưng không thể tăng khả năng nhận biết khi vấn đề không có lời giải.
SOOHAK nhằm định lượng khoảng cách giữa thành tựu nổi bật của AI và kỹ năng nghiên cứu rộng rãi mà hệ thống vẫn thiếu sót.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim