Anthropic cuối cùng đã phát hành phiên bản an toàn của mô hình Mythos Fable-5.


Các tham số đã được nói nhiều trên mạng rồi, tôi không lặp lại nữa.
Điều đáng xem hơn là thử nghiệm thực tế của công cụ lập trình bên thứ ba Augment Code.
Bộ thử nghiệm này đã chạy tổng cộng 489 nhiệm vụ lập trình, kết quả khá thú vị:
Fable-5 rõ ràng vượt trội về tổng thể và độ chính xác.
Điểm tổng thể +0.224, độ chính xác +0.191, thực sự là phân khúc mạnh nhất hiện nay.
Nhưng một chi tiết khác cũng rất quan trọng: GPT-5.5 vẫn ổn định vượt qua Opus-4.8.
Điểm tổng thể GPT-5.5 là +0.164, Opus-4.8 là +0.128;
độ chính xác GPT-5.5 là +0.141, Opus-4.8 là +0.092.
Điều này cũng giải thích cảm giác gần đây của tôi: sau khi Opus-4.8 ra mắt, tôi không cảm thấy rõ ràng nó mạnh hơn GPT-5.5, ít nhất là trong các nhiệm vụ lập trình thực tế, cảm giác này không phải là ảo tưởng.
Thực tế hơn là vấn đề chi phí.
Fable-5 dù mạnh, nhưng tiêu thụ Tokens và chi phí cũng cao: khoảng 14.6k tokens cho mỗi nhiệm vụ, chi phí mỗi nhiệm vụ là 3.09 đô la;
so với GPT-5.5 là 7.5k tokens, 1.52 đô la.
Mạnh thật sự là mạnh, đắt cũng thật sự đắt.
Vì vậy cuối cùng vẫn là câu nói đó: mong chờ GPT-5.6 ra mắt sớm hơn.
Nếu Fable-5 chỉ có thể dùng trong 10 ngày theo kế hoạch đăng ký, sau đó phải gọi API theo giá gốc, thì nó rất có thể không phải là công cụ năng suất hàng ngày của người dùng phổ thông, mà là “mô hình xa xỉ” trong số ít người, ít trường hợp.
Việc sử dụng mô hình AI có thể thực sự bắt đầu phân cấp.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim