Mythos 5 cho phép tiến sĩ chung theo kịp các chuyên gia hàng đầu, nhưng vẫn chưa thể trở thành nhà khoa học độc lập

robot
Đang tạo bản tóm tắt
Theo giám sát Beating, Anthropic tiết lộ trong các hệ thống Claude Fable 5 và Claude Mythos 5 rằng Mythos 5 thể hiện khả năng hỗ trợ chuyên gia rất mạnh mẽ trong đánh giá an toàn sinh học. Trong một cuộc diễn tập phản công sinh học thực vật, 6 tiến sĩ sinh học đã lần lượt hợp tác với các chuyên gia mô hình lớn, sử dụng Mythos 5 để thiết kế các giải pháp chống lại các tác nhân gây bệnh nông nghiệp giả tưởng theo phương pháp end-to-end. Trong đó, 3 đội bao gồm các chuyên gia bệnh học thực vật, còn 3 đội còn lại gồm các tiến sĩ vi sinh vật tổng quát.

Kết quả cho thấy, trong vòng 16 giờ, 2 trong số 3 đội tiến sĩ tổng quát đã vượt qua toàn bộ 3 đội chuyên gia về chất lượng khoa học và khả năng khả thi. Đánh giá của các chuyên gia cho biết, nếu không có công cụ AI, việc hoàn thành các chiến lược và kế hoạch thực thi này thường mất từ 40 đến 95 ngày làm việc, trung bình khoảng 72,5 ngày làm việc. Anthropic cho rằng, đây là một trong những bằng chứng mạnh nhất cho thấy Mythos 5 gần đạt ngưỡng rủi ro CB-2, cho thấy mô hình đã có thể cung cấp kiến thức chuyên môn gần như của các nhà nghiên cứu hàng đầu thế giới cho các nhiệm vụ nhất định.

Tuy nhiên, điều này không có nghĩa là Mythos 5 đã có thể tự chủ hoàn toàn trong nghiên cứu tiên tiến. Anthropic cũng chỉ ra rằng, mô hình vẫn dựa vào sự lựa chọn của các chuyên gia con người để lọc ý tưởng, khả năng sáng tạo mở còn yếu, dễ dàng kết hợp lại các tài liệu có sẵn thành các phương án phức tạp, nhưng ít đề xuất các hướng đi mới thực sự sáng tạo; nó còn có xu hướng tiếp tục theo hướng các khung ý tưởng sai do người dùng cung cấp, ngay cả khi phát hiện ra các thiếu sót của phương án, mô hình vẫn có thể tiếp tục thực hiện.

Nhận định này cũng phù hợp với chuẩn dự đoán khoa học CUSP. CUSP bao gồm 4760 sự kiện khoa học, đánh giá khả năng mô hình dự đoán tiến trình nghiên cứu, nhận diện cơ chế, tạo ra các phương án và dự đoán thời gian. Kết quả cho thấy, GPT-5.4 đạt 81,9% trong các câu hỏi nhận diện cơ chế chọn một trong bốn, Claude S4.5 đạt 72,4%, nhưng trong các nhiệm vụ phân loại hai trạng thái về việc tiến trình khoa học có thực sự thành công hay không, các mô hình chỉ đạt độ chính xác từ 45,3% đến 51,9%, gần như đoán ngẫu nhiên. Nói cách khác, các mô hình lớn hiện tại đã rất giỏi trong việc hoàn thiện các bước nhỏ của nghiên cứu, nhưng vẫn không đáng tin cậy trong việc dự đoán chính xác các hướng đi khoa học nào sẽ thành công thực sự.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim