SemiAnalysis Đánh giá ngang hàng cho thấy: GPT-5.5 lần đầu tiên trong nửa năm trở lại đây đã trở lại tuyến đầu, Claude phụ trách lập kế hoạch dự án mới, Codex phụ trách sửa lỗi đòi hỏi suy luận mật độ cao; Claude sao chép lại bố cục nhưng dữ liệu giả nhiều, dữ liệu của Codex chính xác hơn. Chuẩn mới đổi thành Expert-SWE, GPT-5.5 trong chuẩn này thua Opus 4.7, Opus 4.7 bổ sung tokenizer mới tăng tối đa 35% lượng token. DeepSeek V4 theo kịp tuyến đầu nhưng không dẫn đầu, viết tiếng Trung vẫn tốt hơn đối thủ. Giá cả nên được đo bằng chi phí cho mỗi nhiệm vụ, đơn giá của GPT-5.5 cao gấp đôi GPT-5.4, nhưng chi phí thực tế phụ thuộc vào số token sử dụng. Tỷ lệ đầu vào-đầu ra của Codex khoảng 80:1, của Claude Code khoảng 100:1.

BlockBeatNews

2026-04-27 05:22:31

Đang tạo bản tóm tắt

Theo giám sát Beating, tổ chức phân tích bán dẫn và AI SemiAnalysis đã phát hành đánh giá ngang về trình lập trình trợ lý, bao gồm GPT-5.5, Opus 4.7 và DeepSeek V4.
Kết luận cốt lõi: GPT-5.5 là mô hình lập trình trở lại hàng đầu của OpenAI sau nửa năm, các kỹ sư của SemiAnalysis bắt đầu chuyển đổi giữa Codex và Claude Code, trước đó gần như toàn bộ chỉ dùng Claude.
GPT-5.5 dựa trên tiền huấn luyện mới có mã là «Spud», là lần đầu tiên OpenAI mở rộng quy mô tiền huấn luyện sau GPT-4.5.

Trong thực tế, đã hình thành phân công: Claude làm lập kế hoạch dự án mới và xây dựng sơ bộ, Codex xử lý các lỗi phức tạp dựa trên suy luận.
Codex mạnh hơn trong hiểu cấu trúc dữ liệu và suy luận logic, nhưng không giỏi trong suy đoán ý định mơ hồ của người dùng.
Cùng một nhiệm vụ bảng điều khiển, Claude tự động sao chép bố cục trang tham khảo nhưng dữ liệu bị làm giả nhiều, trong khi Codex bỏ qua bố cục nhưng dữ liệu chính xác hơn nhiều.

Bài viết tiết lộ một chi tiết về thao tác trong bài kiểm tra chuẩn:
OpenAI đã viết blog vào tháng 2 năm nay kêu gọi ngành chuyển sang dùng SWE-bench Pro làm tiêu chuẩn mới cho lập trình, nhưng thông báo của GPT-5.5 lại dùng một chuẩn mới tên là «Expert-SWE».
Nguyên nhân nằm trong phần nhỏ ở cuối thông báo: GPT-5.5 bị Opus 4.7 vượt qua trên SWE-bench Pro, còn thấp hơn Mythos của Anthropic chưa công khai (77.8%).

Về Opus 4.7, Anthropic sau một tuần phát hành đã đăng bài phân tích hậu sự kiện, thừa nhận Claude Code gặp ba lỗi trong khoảng tháng 3 đến tháng 4, kéo dài vài tuần, ảnh hưởng gần như tất cả người dùng.
Trước đó, nhiều kỹ sư phản ánh hiệu suất của 4.6 giảm nhưng bị xem là cảm nhận chủ quan.
Ngoài ra, tokenizer mới của 4.7 làm tăng lượng token sử dụng tối đa 35%, Anthropic thừa nhận điều này, tương đương với việc tăng giá ngầm.

DeepSeek V4 được đánh giá là «theo kịp xu hướng nhưng không dẫn đầu», sẽ là lựa chọn thay thế chi phí thấp nhất cho mô hình mã nguồn đóng.
Bài viết còn nói «Claude vẫn vượt DeepSeek V4 Pro trong các nhiệm vụ viết tiếng Trung có độ khó cao», và bình luận «Claude dùng ngôn ngữ của đối phương để thắng các mô hình Trung Quốc».

Bài viết đề xuất một khái niệm quan trọng:
Đánh giá giá mô hình nên dựa trên «chi phí cho mỗi nhiệm vụ» chứ không phải «chi phí cho mỗi token».
Giá của GPT-5.5 gấp đôi GPT-5.4 (nhập 5 USD, xuất 30 USD / triệu token), nhưng hoàn thành cùng một nhiệm vụ với ít token hơn, chi phí thực tế có thể không cao hơn.
SemiAnalysis sơ bộ cho thấy tỷ lệ đầu vào-đầu ra của Codex là 80:1, thấp hơn Claude Code là 100:1.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
286.54K Phổ biến
#
比特币Breaks79K
11.69M Phổ biến
#
IsraelStrikesIranBTCPlunges
34.47K Phổ biến
#
CryptoMarketsRiseBroadly
93.61K Phổ biến
#
WHCADinnerShootingIncident
17.19K Phổ biến

Ghim

sơ đồ trang web

SemiAnalysis thực nghiệm: GPT-5.5 trở lại đỉnh cao, nhưng OpenAI lặng lẽ giấu đi một thành tích đã bị Opus vượt qua

Chủ đề thịnh hành

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Ghim