Anthropic phát hành BioMysteryBench: 5 chuyên gia đều không thể trả lời câu hỏi sinh học, Claude Mythos có thể giải được 30%

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 30 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, Anthropic đã phát hành BioMysteryBench, một bộ đánh giá chuẩn sinh học gồm 99 câu hỏi. Các câu hỏi do các chuyên gia lĩnh vực dựa trên dữ liệu thực tế (tải trình tự DNA/RNA, học protein, metabolomics, v.v.) soạn thảo, đáp án dựa trên thuộc tính khách quan của dữ liệu hoặc siêu dữ liệu xác nhận bằng thí nghiệm, không dựa vào đánh giá chủ quan của nhà nghiên cứu. Các câu hỏi điển hình như: dựa trên dữ liệu RNA-seq để xác định gen nào bị cắt bỏ trong nhóm thí nghiệm, hoặc suy luận quan hệ cha mẹ từ dữ liệu giải trình tự toàn bộ bộ gen. Môi trường đánh giá cung cấp cho Claude một container, đã cài đặt sẵn các công cụ sinh học phổ biến, có thể tự cài đặt phần mềm qua pip và conda, truy cập các cơ sở dữ liệu công cộng như NCBI, Ensembl để tải bộ gen tham khảo, chỉ đánh giá kết quả cuối cùng, không giới hạn phương pháp phân tích. Trong 99 câu hỏi, 76 câu có ít nhất một chuyên gia nhân loại trả lời đúng (có thể giải quyết được bởi con người), còn 23 câu còn lại do tối đa 5 chuyên gia lĩnh vực thử nghiệm nhưng đều không giải được (khó đối với con người). Trong các câu dễ giải, Claude Opus 4.6 đạt độ chính xác 77,4%, Mythos Preview còn nâng cao hơn nữa. Trong 23 câu khó đối với con người, Sonnet 4.6 và các mô hình mạnh hơn đã có thể giải được tỷ lệ đáng kể, Mythos Preview đạt 30%. Phân tích theo dõi cho thấy Claude có hai chiến lược chính: một là gọi các kiến thức nội tại trong dữ liệu huấn luyện, kết hợp kiến thức liên văn bản để trực tiếp hoàn thành các suy luận mà con người cần phân tích meta; hai là chạy nhiều phương pháp phân tích cùng lúc khi không chắc chắn, lấy giao của nhiều chuỗi bằng chứng. Phân tích độ tin cậy tiết lộ một khác biệt tinh tế: trong các câu dễ, 86% các câu Opus 4.6 trả lời đúng ít nhất 4 lần trong 5 lần thử, thể hiện ổn định; còn trong các câu khó, tỷ lệ này giảm xuống còn 44%, gần một nửa đáp án đúng chỉ gặp đúng 1-2 lần trong 5 lần thử, giống như tình cờ đi qua một con đường suy luận nào đó. Khoảng cách về độ chính xác, còn về độ tin cậy, mới là giới hạn năng lực rõ ràng hơn. Genentech và Roche cùng thời điểm phát hành CompBioBench (100 câu hỏi sinh học tính toán) với ý tưởng thiết kế tương tự, trong đó Claude Opus 4.6 đạt tổng thể 81%, câu khó nhất 69%, phù hợp với kết luận của BioMysteryBench. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim