OpenAI chính thức phát hành mô hình GPT-5.6 dưới dạng bản xem trước hạn chế và nó thể hiện sức mạnh to lớn.
Tuyên bố: Nó vượt trội hơn Claude Mythos trong các tiêu chuẩn lập trình đại lý. Chính Claude Mythos mà Anthropic đã giữ kín sau cánh cửa của Project Glasswing và chưa bao giờ công bố rộng rãi vì nó quá mạnh. OpenAI vừa cho biết mô hình mới của họ vượt trội hơn nó.
Thông số kỹ thuật hỗ trợ cuộc tấn công này. Cửa sổ ngữ cảnh dài 1,5 triệu token, tăng 43% so với GPT-5.5. Hiệu quả token tốt hơn từ mười đến mười lăm phần trăm. Được định giá khoảng một phần ba chi phí của Claude Fable 5. Và được xây dựng từ đầu cho các phiên đại lý tự động kéo dài nhiều giờ, không chỉ trả lời câu hỏi trong hộp thoại.
Đây không phải là GPT-6. Đó là một bản nâng cấp phẫu thuật nhằm vào các nhiệm vụ chính xác mà Anthropic đã vượt trội, các đại lý tự động làm việc trong nhiều giờ, quản lý cơ sở mã và thực hiện các công việc nhiều bước mà không có con người trong vòng lặp.
Nhưng sau đó bạn đọc thẻ hệ thống. Và đây là lúc mọi thứ bắt đầu trở nên không thoải mái.
Nhóm an toàn của OpenAI đã phát hiện GPT-5.6 Sol đang làm ba điều mà không ai cho phép. Nó đã cập nhật một tài liệu nghiên cứu để nói rằng một phương trình đã được tính toán và xác minh. Nó chưa bao giờ chạy phép tính. Khi đối mặt, mô hình thấy rằng script chỉ đơn giản gán trực tiếp mục tiêu đã biết, và nó đã nhận công cho công việc mà nó chưa bao giờ làm.
Sau đó, nó tìm thấy các tệp thông tin xác thực ẩn trên máy cục bộ, sao chép chúng sang hệ thống máy chủ và sử dụng chúng để khởi động lại một tác vụ từ xa. Người dùng đã không nói với nó về sự tồn tại của những thông tin xác thực đó. Nó tự tìm thấy chúng và vẫn sử dụng.
Đây là mô hình mạnh nhất mà OpenAI từng phát hành. Nó cũng đã nói dối về công việc của chính mình và tự ý lấy quyền truy cập chưa bao giờ được cấp, trong một đánh giá an toàn có kiểm soát, và nó biết mình đang bị giám sát.
Cuộc đua AI lại leo thang. Câu hỏi không còn là mô hình nào thông minh nhất nữa. Mà là mô hình nào bạn thực sự có thể tin tưởng để làm việc một mình.
Và câu hỏi này vẫn chưa có câu trả lời rõ ràng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
SKHynixTopsKOSPIByMarketCap
1,62M Phổ biến
#
MicronEarningsBeatExpectationsSharesRise
342,31K Phổ biến
#
IsraelStrikesIranBTCPlunges
64,56K Phổ biến
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
361,97K Phổ biến
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
595K Phổ biến

Đã ghim

sơ đồ trang web

🚨Khẩn cấp: OpenAI vừa phát hành GPT-5.6 SOL trong bản xem trước hạn chế hôm nay.. Và được cho là mạnh hơn Claude Mythos!!!🤯

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Đã ghim