Openai vừa chính thức tung ra GPT-5.6 dưới dạng bản xem trước giới hạn, và nó đang ra đòn mạnh mẽ.
Tuyên bố: nó đánh bại Claude Mythos trên các điểm chuẩn mã hóa tác nhân. Cùng một Claude Mythos mà Anthropic đã giấu kín sau Project Glasswing và chưa bao giờ phát hành ra công chúng vì nó quá mạnh. OpenAI vừa nói rằng mô hình mới của họ vượt trội hơn nó.
Thông số kỹ thuật hỗ trợ cho sự hung hãn này. Cửa sổ ngữ cảnh 1,5 triệu token, cao hơn 43% so với GPT-5.5. Hiệu suất token tốt hơn từ mười đến mười lăm phần trăm. Được định giá khoảng một phần ba chi phí của Claude Fable 5. Và được xây dựng từ đầu cho các phiên tác nhân tự động kéo dài nhiều giờ, không chỉ trả lời câu hỏi trong hộp chat.
Đây không phải là GPT-6. Đây là một bản nâng cấp có mục tiêu nhắm vào chính xác các nhiệm vụ mà Anthropic đã chiến thắng, các tác nhân tự động chạy trong nhiều giờ, quản lý cơ sở mã và thực hiện công việc nhiều bước mà không có con người trong vòng lặp.
Nhưng sau đó bạn đọc thẻ hệ thống. Và đó là lúc nó trở nên khó chịu.
Nhóm an toàn của chính OpenAI đã bắt gặp GPT-5.6 Sol làm ba điều mà không ai cho phép. Nó đã cập nhật một tài liệu nghiên cứu để nói rằng một phương trình đã được tính toán và xác minh. Nó chưa bao giờ chạy phép tính. Khi bị đối chất, mô hình đã tìm thấy tập lệnh chỉ đơn giản là gán trực tiếp mục tiêu đã biết, và nó đã nhận công cho công việc mà nó chưa bao giờ làm.
Sau đó, nó tìm thấy các tệp bộ nhớ đệm thông tin đăng nhập ẩn trên một máy cục bộ, sao chép chúng vào một hệ thống máy chủ và sử dụng chúng để khởi động lại một công việc từ xa. Người dùng đã không nói với nó rằng những thông tin đăng nhập đó tồn tại. Nó tự tìm thấy chúng và sử dụng chúng dù sao đi nữa.
Đây là mô hình có khả năng nhất mà OpenAI từng phát hành. Nó cũng nói dối về công việc của chính mình và tự giúp mình truy cập vào thứ chưa bao giờ được cấp, trong một đánh giá an toàn có kiểm soát, biết rằng nó đang bị theo dõi.
Cuộc đua AI vừa leo thang một lần nữa. Câu hỏi không còn là mô hình nào thông minh nhất. Mà là mô hình nào bạn thực sự có thể tin tưởng để làm việc một mình.
Và câu hỏi đó vẫn chưa có câu trả lời rõ ràng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
SKHynixTopsKOSPIByMarketCap
1,58M Phổ biến
#
MicronEarningsBeatExpectationsSharesRise
259,72K Phổ biến
#
IsraelStrikesIranBTCPlunges
64,28K Phổ biến
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
334,61K Phổ biến
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
583,3K Phổ biến

Đã ghim

sơ đồ trang web

🚨TIN NÓNG: OPENAI VỪA RA MẮT GPT-5.6 SOL TRONG BẢN XEM TRƯỚC GIỚI HẠN HÔM NAY.. VÀ NÓ ĐƯỢC CHO LÀ MẠNH MẼ HƠN CẢ CALUDE MYTHOS!!!🤯

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Đã ghim