4,760个 mốc quan trọng đã được đưa vào, dự đoán những khám phá mới vẫn chỉ như tung đồng xu. Dù lý luận cơ chế mạnh mẽ đến đâu, gặp phải lĩnh vực chưa có tiêu chuẩn câu trả lời vẫn cứ mò mẫm.

Xem bản gốc
CoinNetwork
AI hiện vẫn chưa thể trở thành nhà khoa học độc lập, đánh giá CUSP tiết lộ rằng mô hình lớn thiếu tầm nhìn nghiên cứu tiên phong
Stanford/Oxford/Allen AI Research Institute giới thiệu chuẩn đánh giá theo chuỗi thời gian CUSP, đánh giá khả năng dự đoán tiến bộ khoa học của AI.
Kiểm tra GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 và các mô hình khác thể hiện tốt trong việc hiểu cơ chế của các phương pháp kỹ thuật hiện có, nhưng khả năng dự đoán liệu các khám phá mới có thể thành công gần như là ngẫu nhiên, và có sự chậm trễ hệ thống đối với thời điểm đột phá.
CUSP dựa trên kiến thức chuỗi thời gian, tổng hợp các tiến bộ hàng đầu của Nature/Science, chuẩn đánh giá bao gồm 4.760 mốc quan trọng và 17.429 nhiệm vụ.
Kết luận là, trong các lĩnh vực khám phá khoa học thiếu câu trả lời chuẩn, các mô hình hiện tại không thể cung cấp dự đoán đáng tin cậy trong tương lai.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim