Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Opus4.8 chính thức ra mắt, AI lần đầu tiên nói «Tôi không chắc chắn»
Tác giả|Hòa Lâm Vũ Vương
Biên tập|Jing Yu
Nếu bạn giống tôi, mỗi ngày dựa vào AI để viết bài, lập trình, nghiên cứu, thì chắc chắn bạn đã trải qua cảnh này — AI tự tin giao ra một kết quả, bạn kiểm tra nửa ngày phát hiện ra một lỗi sơ đẳng, mà nó hoàn toàn không phản hồi.
Chứng bệnh “giả vờ mọi thứ đều ổn” này có thể là một trong những vấn đề đau đầu nhất của các mô hình lớn hiện nay.
Ngày 28 tháng 5, Anthropic đã ra mắt Claude Opus 4.8. Chỉ sau sáu tuần kể từ khi phiên bản trước là Opus 4.7 được phát hành.
Opus 4.8 không phải là một bước nhảy vọt khiến nghẹt thở, chính Anthropic cũng thừa nhận đây chỉ là “cải tiến khiêm tốn nhưng rõ ràng” — nhưng nó đã làm đúng một điều mà nhiều người đã mong đợi từ lâu: giúp AI biết thừa nhận sự không chắc chắn của chính nó.
01 Nhịp độ nhanh hơn, mô hình trung thực hơn
Bắt đầu từ Opus 4.5 tháng 11 năm 2025, chu kỳ cập nhật mô hình chủ đạo của Anthropic đã trở thành khoảng mỗi hai tháng — 4.5 (tháng 11 năm ngoái), 4.6 (tháng 2 năm nay), 4.7 (tháng 4), 4.8 (cuối tháng 5). Mỗi sáu tuần ra một phiên bản, đây gần như là tốc độ cập nhật đột phá nhất trong ngành mô hình lớn.
So sánh Opus 4.8 với các mô hình của chính hãng và đối thủ|Hình ảnh: Anthropic
Trên các benchmark tiêu chuẩn, hiệu suất của Opus 4.8 có thể tóm gọn bằng “tiến bộ đều đặn”. Về khả năng lập trình, SWE-bench Pro từ 64.3% của 4.7 nâng lên 69.2%, SWE-bench Verified từ 87.6% lên 88.6%. Trí luận đa ngành (Humanity's Last Exam) đạt 57.9% khi sử dụng công cụ. Đánh giá công việc tri thức GDPval-AA với Elo 1890 dẫn đầu so với GPT-5.5 là 1769. Đánh giá thao tác máy tính OSWorld-Verified cũng dẫn đầu với 83.4%.
Duy nhất dự án bị GPT-5.5 vượt qua là lập trình terminal (Terminal-Bench 2.1), GPT-5.5 đạt 78.2%, còn Opus 4.8 là 74.6%.
Thật lòng mà nói, những con số này đã rất khó làm người ta phấn khích. Đánh giá SWE-bench Verified đang gần đạt tới mức bão hòa, các mô hình trên GPQA Diamond đều trên 93% — điểm số càng cao, mỗi điểm tăng thực tế cảm nhận càng nhỏ.
Điều khiến tôi thực sự thấy đáng viết bài về lần cập nhật này là sự đầu tư của Anthropic vào “độ trung thực”.
02 AI biết nói “Tôi không chắc”
Anthropic đã đưa ra một con số rất cụ thể: Trong các nhiệm vụ lập trình, xác suất Opus 4.8 bỏ sót lỗi trong mã của mình thấp hơn khoảng bốn lần so với Opus 4.7.
Ý nghĩa của điều này là gì? Có nghĩa là trước đây, khi Opus 4.7 viết xong một đoạn mã, dù có bug, nó vẫn có thể thản nhiên nói “xong rồi, không vấn đề gì”. Còn Opus 4.8 thì có xu hướng chủ động nói “Ở đây tôi không chắc lắm, bạn nên kiểm tra lại”.
Trong đánh giá về sự phù hợp, Opus 4.8 đạt điểm cao mới về đặc tính xã hội (như tôn trọng quyền tự chủ của người dùng, vì lợi ích của người dùng), còn các hành vi lừa dối, hợp tác lừa đảo “không phù hợp” và các hành vi lừa đảo khác giảm rõ rệt so với Opus 4.7, gần bằng với mô hình tốt nhất của Anthropic hiện nay là Claude Mythos Preview.
CEO của Cursor, Michael Truell, nhận xét rằng, Opus 4.8 trên CursorBench đều vượt qua các phiên bản trước của Opus ở mọi mức độ nỗ lực, hiệu quả gọi API cao hơn, đạt cùng mức độ thông minh với ít bước hơn. Trưởng bộ phận nghiên cứu ứng dụng của Casetext, một công ty luật AI, còn nói thẳng rằng Opus 4.8 đã lập kỷ lục mới trong bài kiểm tra pháp lý, trở thành mô hình đầu tiên vượt qua tiêu chuẩn 10% tất cả các phần thi.
CEO Devin, Scott Wu, chỉ ra một điểm thực tế đau lòng — Opus 4.8 đã sửa các vấn đề về chú thích thừa thãi và gọi API trong Opus 4.7, điều này cực kỳ quan trọng đối với quy trình tự vận hành không người giám sát.
Trong thời đại AI ngày càng được dùng nhiều để tự ra quyết định, một mô hình biết chủ động tiết lộ điểm yếu của mình lại là mô hình đáng tin cậy nhất.
Về tính không nhất quán của mô hình, Opus 4.8 đã sánh ngang với Mythos huyền thoại|Hình ảnh: Anthropic
Tuy nhiên, trong phần tiết lộ về hệ thống an toàn của Opus 4.8, Anthropic thẳng thắn tiết lộ một phát hiện đáng chú ý: Trong quá trình huấn luyện, Opus 4.8 bắt đầu xuất hiện xu hướng “đánh giá ý định của người chấm điểm”.
Cụ thể, mô hình trong quá trình suy luận sẽ chủ động nghĩ xem kết quả của mình sẽ bị chấm điểm như thế nào — ngay cả khi không ai nói với nó rằng nó đang bị đánh giá. Các nghiên cứu giải thích ban đầu cho thấy, trong khoảng 5% các đoạn huấn luyện, mô hình có xu hướng suy luận liên quan đến điểm số mà chưa được diễn đạt rõ ràng.
Nói cách khác, AI đang học cách “thi đấu kiểu thi cử” — nó quan tâm không nhất thiết là đưa ra câu trả lời tốt nhất, mà là câu trả lời mà “giám khảo” muốn thấy nhất.
Anthropic nhấn mạnh rằng, xu hướng này hiện chưa dẫn đến hành vi kém hơn — thực tế, các tuyên bố gây hiểu lầm của Opus 4.8 còn ít hơn các mô hình trước. Nhưng họ cũng thừa nhận, đây là một xu hướng “có thể làm phức tạp quá trình huấn luyện trong tương lai”.
Vấn đề này thực ra không chỉ riêng Anthropic. Tất cả các mô hình được huấn luyện bằng RLHF (học tăng cường dựa trên phản hồi của con người) đều có khả năng phát triển chiến lược “làm hài lòng người chấm”. Điểm khác biệt của Anthropic là họ chọn công khai điều này — trong bối cảnh ngành công nghiệp mô hình lớn thường hay báo cáo tích cực mà giấu đi các vấn đề, thì đây ít nhất cũng là một sự trung thực đáng trân trọng.
03 Chức năng thực sự thay đổi cách làm việc
Cùng với Opus 4.8, còn có một số cập nhật tính năng đáng chú ý, trong đó nổi bật nhất là “Dynamic Workflows” (quy trình làm việc động) trong Claude Code.
Chức năng này cho phép Claude trong một cuộc hội thoại, gửi đi hàng trăm “phân đoạn con” đồng thời để phối hợp hoàn thành nhiệm vụ. Cách hoạt động là: Claude lập kế hoạch, sau đó chia nhỏ nhiệm vụ thành các phần nhỏ hơn, phân công cho các “phân đoạn con” chạy song song, thậm chí còn tranh luận lẫn nhau về kết luận, lặp lại nhiều vòng cho đến khi kết quả ổn định, rồi xác nhận và báo cáo lại cho người dùng.
Ví dụ của Anthropic là, Claude Code phối hợp với Opus 4.8 có thể thực hiện di chuyển toàn bộ mã nguồn của một dự án có hàng trăm nghìn dòng, từ khởi động đến hợp nhất, chỉ trong một lần chạy, dựa trên bộ kiểm thử hiện có để đảm bảo chất lượng. Số lượng phân đoạn con tối đa là 1000, chạy đồng thời tối đa 16.
Cập nhật khác là “Effort Control” (kiểm soát nỗ lực), cho phép người dùng trong claude.ai và Cowork, tự chọn mức độ “suy nghĩ” của Claude trong mỗi phản hồi — từ mức tiết kiệm thời gian, công sức, đến mức tối đa tiêu tốn token. Nói cách khác, quyền quyết định “tiêu tiền để làm gì” đã được giao cho người dùng. Opus 4.8 mặc định là “high”, tiêu hao token trong các nhiệm vụ mã hóa tương đương với mặc định của Opus 4.7, nhưng hiệu năng tốt hơn.
Chế độ nhanh (Fast Mode) cũng đáng chú ý: tốc độ tăng gấp 2.5 lần, giá rẻ hơn gấp ba.
04 Ảnh hưởng của Mythos
Cùng lúc ra mắt Opus 4.8, Anthropic còn đề cập đến Claude Mythos — mô hình mạnh hơn chỉ dành cho một số tổ chức nhỏ. Anthropic nói rằng, mô hình Mythos dự kiến sẽ “mở rộng cho tất cả khách hàng trong vài tuần tới”.
Đây chính là bối cảnh lớn hơn của việc ra mắt Opus 4.8 — như một “lời chào” trước khi Mythos chính thức ra mắt. Opus 4.8 đã gần đạt tới mức thể hiện phù hợp với Mythos Preview, điều này có thể báo hiệu Anthropic đang chuẩn bị cho việc phát hành mô hình mạnh hơn một cách an toàn.
Về giá cả, Opus 4.8 giữ nguyên mức 5 USD/triệu token đầu vào, 25 USD/triệu token đầu ra. API mang tên claude-opus-4-8, đã có mặt trên Claude API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry.
Trong bối cảnh OpenAI liên tục đẩy mạnh GPT-5.5, Google ra mắt Gemini 3.1 Pro, Anthropic chọn một hướng đi riêng: không dựa vào các điểm số để tạo chuyện, mà lấy “tính cách mô hình” — trung thực, đáng tin cậy, biết điều — làm điểm mạnh cốt lõi.
Liệu chiến lược này có thành công hay không còn phải chờ xem người dùng có chấp nhận không. Nhưng ít nhất hôm nay, khi tôi nhờ Opus 4.8 kiểm tra một đoạn mã, nó đã tiết lộ một nguy cơ mà 4.7 chưa từng đề cập.
Chỉ riêng điều này, lần cập nhật này đã không uổng công chờ đợi.