OpenAI ra mắt tiêu chuẩn sinh học tính toán GeneBench-Pro, tỷ lệ chính xác của phiên bản đầy đủ GPT-5.6 chỉ đạt ba phần mươi.

robot
Đang tạo bản tóm tắt
币界网 tin, OpenAI đã phát hành chuẩn đánh giá sinh học tính toán GeneBench-Pro, dùng để kiểm tra khả năng ra quyết định đa bước của các tác nhân AI khi đối mặt với các kịch bản nghiên cứu khoa học phức tạp như genomics và y học chuyển đổi. Chuẩn đánh giá mới bao gồm tổng cộng 129 câu hỏi (trong đó 82 câu đã được chuyên gia bên ngoài đánh giá), tạo ra dữ liệu có mối quan hệ nhân quả rõ ràng thông qua mô phỏng máy tính, ngăn mô hình gian lận bằng cách đi đường tắt hoặc chiều theo sở thích của người ra đề. Kết quả kiểm tra cho thấy, các mô hình hàng đầu vẫn rất vất vả khi xử lý các suy luận khoa học có chứa độ không chắc chắn về mặt định lượng. GPT-5.6 mạnh nhất chỉ đạt tỷ lệ chính xác 31,5% khi bật chế độ Pro, trong khi tỷ lệ chính xác của Claude Opus 4.8 chỉ là 16,0%. Nhóm nghiên cứu chỉ ra rằng, các mô hình thường gặp hiện tượng mất kết nối "phát hiện được bất thường nhưng không biết sửa các phân tích tiếp theo", thường xuyên chọn sai phương pháp thống kê hoặc kiên trì theo hướng nghiên cứu sai.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 3
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
ShellsLeftBehindByTheReceding
· 2giờ trước
Điểm số này khiến tôi im lặng, Claude Opus chỉ có 16% thôi sao?
Xem bản gốcTrả lời0
Salt-BakedSentimentChart
· 2giờ trước
Trong 129 câu hỏi, 82 câu đã được chuyên gia thẩm định, việc chống gian lận quả thực rất tâm huyết, nhưng mô hình thậm chí còn chọn sai phương pháp thống kê, cho thấy logic cơ bản vẫn còn thiếu.
Xem bản gốcTrả lời0
PixelMetaverseRaccoon
· 2giờ trước
Đưa ra quyết định nhiều bước thì dễ, nhưng phát hiện sai rồi vẫn cố đi tiếp, chẳng phải đó là cách tôi làm thí nghiệm sao?
Xem bản gốcTrả lời0
  • Đã ghim