SemiAnalysis thực nghiệm: GPT-5.5 trở lại đỉnh cao, nhưng OpenAI lặng lẽ giấu đi một thành tích đã bị Opus vượt qua

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, tổ chức phân tích bán dẫn và AI SemiAnalysis đã phát hành đánh giá ngang về trình lập trình trợ lý, bao gồm GPT-5.5, Opus 4.7 và DeepSeek V4.
Kết luận cốt lõi: GPT-5.5 là mô hình lập trình trở lại hàng đầu của OpenAI sau nửa năm, các kỹ sư của SemiAnalysis bắt đầu chuyển đổi giữa Codex và Claude Code, trước đó gần như toàn bộ chỉ dùng Claude.
GPT-5.5 dựa trên tiền huấn luyện mới có mã là «Spud», là lần đầu tiên OpenAI mở rộng quy mô tiền huấn luyện sau GPT-4.5.

Trong thực tế, đã hình thành phân công: Claude làm lập kế hoạch dự án mới và xây dựng sơ bộ, Codex xử lý các lỗi phức tạp dựa trên suy luận.
Codex mạnh hơn trong hiểu cấu trúc dữ liệu và suy luận logic, nhưng không giỏi trong suy đoán ý định mơ hồ của người dùng.
Cùng một nhiệm vụ bảng điều khiển, Claude tự động sao chép bố cục trang tham khảo nhưng dữ liệu bị làm giả nhiều, trong khi Codex bỏ qua bố cục nhưng dữ liệu chính xác hơn nhiều.

Bài viết tiết lộ một chi tiết về thao tác trong bài kiểm tra chuẩn:
OpenAI đã viết blog vào tháng 2 năm nay kêu gọi ngành chuyển sang dùng SWE-bench Pro làm tiêu chuẩn mới cho lập trình, nhưng thông báo của GPT-5.5 lại dùng một chuẩn mới tên là «Expert-SWE».
Nguyên nhân nằm trong phần nhỏ ở cuối thông báo: GPT-5.5 bị Opus 4.7 vượt qua trên SWE-bench Pro, còn thấp hơn Mythos của Anthropic chưa công khai (77.8%).

Về Opus 4.7, Anthropic sau một tuần phát hành đã đăng bài phân tích hậu sự kiện, thừa nhận Claude Code gặp ba lỗi trong khoảng tháng 3 đến tháng 4, kéo dài vài tuần, ảnh hưởng gần như tất cả người dùng.
Trước đó, nhiều kỹ sư phản ánh hiệu suất của 4.6 giảm nhưng bị xem là cảm nhận chủ quan.
Ngoài ra, tokenizer mới của 4.7 làm tăng lượng token sử dụng tối đa 35%, Anthropic thừa nhận điều này, tương đương với việc tăng giá ngầm.

DeepSeek V4 được đánh giá là «theo kịp xu hướng nhưng không dẫn đầu», sẽ là lựa chọn thay thế chi phí thấp nhất cho mô hình mã nguồn đóng.
Bài viết còn nói «Claude vẫn vượt DeepSeek V4 Pro trong các nhiệm vụ viết tiếng Trung có độ khó cao», và bình luận «Claude dùng ngôn ngữ của đối phương để thắng các mô hình Trung Quốc».

Bài viết đề xuất một khái niệm quan trọng:
Đánh giá giá mô hình nên dựa trên «chi phí cho mỗi nhiệm vụ» chứ không phải «chi phí cho mỗi token».
Giá của GPT-5.5 gấp đôi GPT-5.4 (nhập 5 USD, xuất 30 USD / triệu token), nhưng hoàn thành cùng một nhiệm vụ với ít token hơn, chi phí thực tế có thể không cao hơn.
SemiAnalysis sơ bộ cho thấy tỷ lệ đầu vào-đầu ra của Codex là 80:1, thấp hơn Claude Code là 100:1.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim