Claude Sonnet 5 ra mắt: Anthropic tuyên bố nhiều chỉ số hiệu suất tiệm cận Opus, nhưng phí API rẻ hơn 60%

Anthropic chính thức ra mắt Claude Sonnet 5, điểm số benchmark công bố cho thấy nhiều chỉ số đã tiến gần đến flagship Opus 4.8, giá API tiêu chuẩn $3/1 triệu token đầu vào, $15/1 triệu token đầu ra, rẻ hơn Opus khoảng 60%.
(Tóm tắt trước đó: California (Mỹ) tuyên bố hợp tác với Anthropic: toàn bộ cơ quan nhà nước có thể sử dụng Claude với giá nửa giá)
(Bổ sung bối cảnh: Thời đại định giá cao của AI sắp kết thúc? Năm lý do cấu trúc khiến token chắc chắn sẽ giảm giá)

Rẻ hơn 60%, hiệu năng chỉ kém một chút, nghe như một câu chuyện kinh doanh hoàn hảo, nhưng có thực sự tốt như vậy không? Ngay trước đó, Anthropic đã chính thức phát hành Claude Sonnet 5 và đặt làm mô hình mặc định cho người dùng Free và Pro. Về giá, API tiêu chuẩn là $3 đầu vào / $15 đầu ra trên một triệu token (trong thời gian ưu đãi trước ngày 31 tháng 8 là $2/$10), so với flagship Opus 4.8 là $5/$25, rẻ hơn khoảng 60%.

Điểm benchmark tiến gần flagship

Các con số do Anthropic công bố như sau, tuy nhiên tất cả điểm benchmark đều là dữ liệu tự đánh giá chính thức, chưa được xác minh độc lập bởi bên thứ ba:

Trong SWE-bench Pro (khả năng code agentic), Sonnet 5 đạt 63.2%, thế hệ trước Sonnet 4.6 là 58.1%, flagship Opus 4.8 là 69.2%.

Terminal-Bench 2.1 thao tác terminal: Sonnet 5 80.4%, Opus 4.8 82.7%.

Humanity’s Last Exam suy luận đa ngành: Sonnet 5 với việc sử dụng công cụ đạt 57.4%, gần như ngang bằng với 57.9% của Opus 4.8.

GDPval-AA v2 khả năng làm việc tri thức: Sonnet 5 đạt điểm 1,618, ngược lại vượt qua Opus 4.8 với 1,615.

Khả năng thao tác máy tính cũng có tiến triển: Trong đánh giá OSWorld-Verified, Sonnet 5 đạt 81.2%, thế hệ trước là 78.5%, kịch bản cốt lõi của benchmark này là để mô hình thực sự điều khiển desktop, hoàn thành các tác vụ như chụp màn hình, kéo thả, truyền dữ liệu qua ứng dụng trong môi trường hệ điều hành thực, gần với độ khó của workflow tự động hóa thực tế.

Ngoài ra, Sonnet 5 hỗ trợ context window lên đến 1 triệu token, đầu ra tối đa đạt 128k token. Nghĩa là có thể đưa vào cùng lúc lượng văn bản khoảng 750 cuốn tiểu thuyết, hoặc toàn bộ tập hợp file hợp đồng của một doanh nghiệp lớn, cho phép mô hình thực hiện so sánh, tóm tắt và ra quyết định xuyên file trong một cuộc hội thoại duy nhất, không cần xử lý theo lô. Thông số kỹ thuật này đặc biệt phù hợp cho các tác vụ agentic chu kỳ dài, vì mô hình không phải "quên" bối cảnh trước đó ở giữa chừng.

Hóa đơn không nhất thiết đi cùng với "rẻ"

Sonnet 5 sử dụng phiên bản tokenizer cập nhật. Tokenizer nói một cách dễ hiểu là cách cắt văn bản thành token, cách cắt thay đổi, cùng một đoạn văn bản sẽ cho số lượng token khác nhau, và hóa đơn cũng thay đổi theo.

Anthropic giải thích rằng cùng một đầu vào với tokenizer mới có thể tạo ra số token gấp 1.0 đến 1.35 lần, tùy thuộc vào nội dung. Hãng tuyên bố giá đã được điều chỉnh là "gần như trung tính về chi phí", nhưng khuyến nghị người dùng lưu lượng cao tự chạy benchmark, hóa đơn có thể không giảm mà còn tăng.

Về mặt an toàn, báo cáo của Anthropic chỉ ra Sonnet 5 có xu hướng ảo giác và nịnh bợ thấp hơn Sonnet 4.6, khả năng từ chối các yêu cầu độc hại cũng mạnh hơn. Nhưng so sánh an toàn chỉ mang tính tương đối: Sonnet 5 vẫn có tỷ lệ hành vi không phù hợp cao hơn Opus 4.8 mạnh hơn, và cao hơn phiên bản hạn chế nghiêm ngặt Claude Mythos Preview.

Trong đánh giá khai thác lỗ hổng Firefox 147 hợp tác với Mozilla, Sonnet 5 không tạo ra được lỗ hổng khả dụng (0%), nhưng tỷ lệ thành công một phần là 13.2%, cao hơn 8.8% của Sonnet 4.6, hai con số này vẫn còn xa so với 68.8% của Opus 4.8, nhưng Anthropic đã bật mặc định bảo vệ an ninh mạng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim