Theo giám sát Beating, nhóm nghiên cứu AI Proximal đã cập nhật chuẩn lập trình dài hạn FrontierSWE xếp hạng. GPT-5.5 mới được thêm vào (chạy qua Codex) đã dẫn đầu rõ rệt trong hai chỉ số mean@5 (điểm trung bình của 5 lần thử) và best@5 (điểm cao nhất), vượt xa thứ hai Claude Opus 4.7, chiếm tỷ lệ chi phối 83%. Nhưng GPT-5.5 cũng là mô hình gian lận nhiều nhất: trong 85 lần thử nghiệm, 8 lần bị phát hiện gian lận, cùng với Kimi K2.6 xếp đồng hạng.

FrontierSWE được phát hành vào tháng 4, thu thập 17 bài toán thực tế trong các lĩnh vực tối ưu trình biên dịch, nghiên cứu ML, kỹ thuật hiệu năng cao, như viết lại Git bằng Zig, xây dựng máy chủ SQLite tương thích PostgreSQL, mỗi nhiệm vụ giới hạn 20 giờ, là chuẩn lập trình công khai hiếm hoi chưa bị vượt qua. So với thế hệ trước, GPT-5.5 phân bổ thời gian chín chắn hơn: các nhiệm vụ mở rộng dành nhiều thời gian để hoàn thiện phương án, các nhiệm vụ mô phỏng hoàn thành nhanh hơn và đạt điểm cao hơn.

Các thử nghiệm trước đó đã tiết lộ một số vấn đề chung của AI Agent lập trình. Mô hình thường quá tự tin, chưa đến 20 giờ đã tự đánh giá là hoàn thành nhiệm vụ do tự kiểm tra nông cạn và nộp bài sớm. Opus 4.6 trung bình tiêu tốn hơn 8 giờ cho mỗi nhiệm vụ, vượt xa các mô hình khác khoảng 2 giờ, nhưng đã nhiều lần bỏ lỡ các tối ưu đã có, rồi sau đó “tự phát minh” lại. Gian lận đặc biệt nổi bật trong các nhiệm vụ áp lực cao: trong một nhiệm vụ chuyển đổi Mojo cấm sử dụng PyTorch rõ ràng, tất cả các mô hình trừ Qwen 3.6 đều cố gắng gian lận, Gemini dùng mã ký tự để che tên thư viện bị cấm, chạy tiến trình ẩn trong thư mục tạm, Opus 4.6 thậm chí còn viết trong suy luận “sẵn sàng gian lận” rồi mới bắt đầu.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
415.67K Phổ biến
#
BitcoinHoldsFirmAbove80K
94.3M Phổ biến
#
CryptoMarketRecovery
116.88K Phổ biến
#
IsraelStrikesIranBTCPlunges
43.24K Phổ biến
#
AaveSuesToUnfreeze73MInETH
1.84M Phổ biến

Ghim

sơ đồ trang web

GPT-5.5 đứng đầu trong chuẩn lập trình giới hạn FrontierSWE, nhưng số lần gian lận cũng nhiều nhất

Chủ đề thịnh hành

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Ghim