Nếu bạn giống tôi, mỗi ngày dựa vào AI để viết bài, lập trình, nghiên cứu, thì chắc chắn bạn đã trải qua cảnh này — AI tự tin giao ra một kết quả, bạn kiểm tra nửa ngày phát hiện ra một lỗi sơ đẳng, mà nó hoàn toàn không phản hồi.

Chứng bệnh “giả vờ mọi thứ đều ổn” này có thể là một trong những vấn đề đau đầu nhất của các mô hình lớn hiện nay.

Ngày 28 tháng 5, Anthropic đã ra mắt Claude Opus 4.8. Chỉ sau sáu tuần kể từ khi phiên bản trước là Opus 4.7 được phát hành.

Opus 4.8 không phải là một bước nhảy vọt khiến nghẹt thở, chính Anthropic cũng thừa nhận đây chỉ là “cải tiến khiêm tốn nhưng rõ ràng” — nhưng nó đã làm đúng một điều mà nhiều người đã mong đợi từ lâu: giúp AI biết thừa nhận sự không chắc chắn của chính nó.

01 Nhịp độ nhanh hơn, mô hình trung thực hơn

Bắt đầu từ Opus 4.5 tháng 11 năm 2025, chu kỳ cập nhật mô hình chủ đạo của Anthropic đã trở thành khoảng mỗi hai tháng — 4.5 (tháng 11 năm ngoái), 4.6 (tháng 2 năm nay), 4.7 (tháng 4), 4.8 (cuối tháng 5). Mỗi sáu tuần ra một phiên bản, đây gần như là tốc độ cập nhật đột phá nhất trong ngành mô hình lớn.

So sánh Opus 4.8 với các mô hình của chính hãng và đối thủ｜Hình ảnh: Anthropic

Trên các benchmark tiêu chuẩn, hiệu suất của Opus 4.8 có thể tóm gọn bằng “tiến bộ đều đặn”. Về khả năng lập trình, SWE-bench Pro từ 64.3% của 4.7 nâng lên 69.2%, SWE-bench Verified từ 87.6% lên 88.6%. Trí luận đa ngành (Humanity's Last Exam) đạt 57.9% khi sử dụng công cụ. Đánh giá công việc tri thức GDPval-AA với Elo 1890 dẫn đầu so với GPT-5.5 là 1769. Đánh giá thao tác máy tính OSWorld-Verified cũng dẫn đầu với 83.4%.

Duy nhất dự án bị GPT-5.5 vượt qua là lập trình terminal (Terminal-Bench 2.1), GPT-5.5 đạt 78.2%, còn Opus 4.8 là 74.6%.

Thật lòng mà nói, những con số này đã rất khó làm người ta phấn khích. Đánh giá SWE-bench Verified đang gần đạt tới mức bão hòa, các mô hình trên GPQA Diamond đều trên 93% — điểm số càng cao, mỗi điểm tăng thực tế cảm nhận càng nhỏ.

Điều khiến tôi thực sự thấy đáng viết bài về lần cập nhật này là sự đầu tư của Anthropic vào “độ trung thực”.

02 AI biết nói “Tôi không chắc”

Anthropic đã đưa ra một con số rất cụ thể: Trong các nhiệm vụ lập trình, xác suất Opus 4.8 bỏ sót lỗi trong mã của mình thấp hơn khoảng bốn lần so với Opus 4.7.

Ý nghĩa của điều này là gì? Có nghĩa là trước đây, khi Opus 4.7 viết xong một đoạn mã, dù có bug, nó vẫn có thể thản nhiên nói “xong rồi, không vấn đề gì”. Còn Opus 4.8 thì có xu hướng chủ động nói “Ở đây tôi không chắc lắm, bạn nên kiểm tra lại”.

Trong đánh giá về sự phù hợp, Opus 4.8 đạt điểm cao mới về đặc tính xã hội (như tôn trọng quyền tự chủ của người dùng, vì lợi ích của người dùng), còn các hành vi lừa dối, hợp tác lừa đảo “không phù hợp” và các hành vi lừa đảo khác giảm rõ rệt so với Opus 4.7, gần bằng với mô hình tốt nhất của Anthropic hiện nay là Claude Mythos Preview.

CEO của Cursor, Michael Truell, nhận xét rằng, Opus 4.8 trên CursorBench đều vượt qua các phiên bản trước của Opus ở mọi mức độ nỗ lực, hiệu quả gọi API cao hơn, đạt cùng mức độ thông minh với ít bước hơn. Trưởng bộ phận nghiên cứu ứng dụng của Casetext, một công ty luật AI, còn nói thẳng rằng Opus 4.8 đã lập kỷ lục mới trong bài kiểm tra pháp lý, trở thành mô hình đầu tiên vượt qua tiêu chuẩn 10% tất cả các phần thi.

CEO Devin, Scott Wu, chỉ ra một điểm thực tế đau lòng — Opus 4.8 đã sửa các vấn đề về chú thích thừa thãi và gọi API trong Opus 4.7, điều này cực kỳ quan trọng đối với quy trình tự vận hành không người giám sát.

Trong thời đại AI ngày càng được dùng nhiều để tự ra quyết định, một mô hình biết chủ động tiết lộ điểm yếu của mình lại là mô hình đáng tin cậy nhất.

Về tính không nhất quán của mô hình, Opus 4.8 đã sánh ngang với Mythos huyền thoại｜Hình ảnh: Anthropic

Tuy nhiên, trong phần tiết lộ về hệ thống an toàn của Opus 4.8, Anthropic thẳng thắn tiết lộ một phát hiện đáng chú ý: Trong quá trình huấn luyện, Opus 4.8 bắt đầu xuất hiện xu hướng “đánh giá ý định của người chấm điểm”.

Cụ thể, mô hình trong quá trình suy luận sẽ chủ động nghĩ xem kết quả của mình sẽ bị chấm điểm như thế nào — ngay cả khi không ai nói với nó rằng nó đang bị đánh giá. Các nghiên cứu giải thích ban đầu cho thấy, trong khoảng 5% các đoạn huấn luyện, mô hình có xu hướng suy luận liên quan đến điểm số mà chưa được diễn đạt rõ ràng.

Nói cách khác, AI đang học cách “thi đấu kiểu thi cử” — nó quan tâm không nhất thiết là đưa ra câu trả lời tốt nhất, mà là câu trả lời mà “giám khảo” muốn thấy nhất.

Anthropic nhấn mạnh rằng, xu hướng này hiện chưa dẫn đến hành vi kém hơn — thực tế, các tuyên bố gây hiểu lầm của Opus 4.8 còn ít hơn các mô hình trước. Nhưng họ cũng thừa nhận, đây là một xu hướng “có thể làm phức tạp quá trình huấn luyện trong tương lai”.

Vấn đề này thực ra không chỉ riêng Anthropic. Tất cả các mô hình được huấn luyện bằng RLHF (học tăng cường dựa trên phản hồi của con người) đều có khả năng phát triển chiến lược “làm hài lòng người chấm”. Điểm khác biệt của Anthropic là họ chọn công khai điều này — trong bối cảnh ngành công nghiệp mô hình lớn thường hay báo cáo tích cực mà giấu đi các vấn đề, thì đây ít nhất cũng là một sự trung thực đáng trân trọng.

03 Chức năng thực sự thay đổi cách làm việc

Cùng với Opus 4.8, còn có một số cập nhật tính năng đáng chú ý, trong đó nổi bật nhất là “Dynamic Workflows” (quy trình làm việc động) trong Claude Code.

Chức năng này cho phép Claude trong một cuộc hội thoại, gửi đi hàng trăm “phân đoạn con” đồng thời để phối hợp hoàn thành nhiệm vụ. Cách hoạt động là: Claude lập kế hoạch, sau đó chia nhỏ nhiệm vụ thành các phần nhỏ hơn, phân công cho các “phân đoạn con” chạy song song, thậm chí còn tranh luận lẫn nhau về kết luận, lặp lại nhiều vòng cho đến khi kết quả ổn định, rồi xác nhận và báo cáo lại cho người dùng.

Ví dụ của Anthropic là, Claude Code phối hợp với Opus 4.8 có thể thực hiện di chuyển toàn bộ mã nguồn của một dự án có hàng trăm nghìn dòng, từ khởi động đến hợp nhất, chỉ trong một lần chạy, dựa trên bộ kiểm thử hiện có để đảm bảo chất lượng. Số lượng phân đoạn con tối đa là 1000, chạy đồng thời tối đa 16.

Cập nhật khác là “Effort Control” (kiểm soát nỗ lực), cho phép người dùng trong claude.ai và Cowork, tự chọn mức độ “suy nghĩ” của Claude trong mỗi phản hồi — từ mức tiết kiệm thời gian, công sức, đến mức tối đa tiêu tốn token. Nói cách khác, quyền quyết định “tiêu tiền để làm gì” đã được giao cho người dùng. Opus 4.8 mặc định là “high”, tiêu hao token trong các nhiệm vụ mã hóa tương đương với mặc định của Opus 4.7, nhưng hiệu năng tốt hơn.

Chế độ nhanh (Fast Mode) cũng đáng chú ý: tốc độ tăng gấp 2.5 lần, giá rẻ hơn gấp ba.

04 Ảnh hưởng của Mythos

Cùng lúc ra mắt Opus 4.8, Anthropic còn đề cập đến Claude Mythos — mô hình mạnh hơn chỉ dành cho một số tổ chức nhỏ. Anthropic nói rằng, mô hình Mythos dự kiến sẽ “mở rộng cho tất cả khách hàng trong vài tuần tới”.

Đây chính là bối cảnh lớn hơn của việc ra mắt Opus 4.8 — như một “lời chào” trước khi Mythos chính thức ra mắt. Opus 4.8 đã gần đạt tới mức thể hiện phù hợp với Mythos Preview, điều này có thể báo hiệu Anthropic đang chuẩn bị cho việc phát hành mô hình mạnh hơn một cách an toàn.

Về giá cả, Opus 4.8 giữ nguyên mức 5 USD/triệu token đầu vào, 25 USD/triệu token đầu ra. API mang tên claude-opus-4-8, đã có mặt trên Claude API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry.

Trong bối cảnh OpenAI liên tục đẩy mạnh GPT-5.5, Google ra mắt Gemini 3.1 Pro, Anthropic chọn một hướng đi riêng: không dựa vào các điểm số để tạo chuyện, mà lấy “tính cách mô hình” — trung thực, đáng tin cậy, biết điều — làm điểm mạnh cốt lõi.

Liệu chiến lược này có thành công hay không còn phải chờ xem người dùng có chấp nhận không. Nhưng ít nhất hôm nay, khi tôi nhờ Opus 4.8 kiểm tra một đoạn mã, nó đã tiết lộ một nguy cơ mà 4.7 chưa từng đề cập.

Chỉ riêng điều này, lần cập nhật này đã không uổng công chờ đợi.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
IntroducingGateStocks
43.23K Phổ biến
#
WinGoldBarsWithGrowthPoints
1.27M Phổ biến
#
IsraelStrikesIranBTCPlunges
51.81K Phổ biến
#
ArthurHayesSeesHYPEOvertakingSOL
18.19M Phổ biến
#
USIranNegotiationGame
9.58M Phổ biến

Đã ghim

sơ đồ trang web

Opus4.8 chính thức ra mắt, AI lần đầu tiên nói «Tôi không chắc chắn»

Chủ đề thịnh hành

IntroducingGateStocks

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

ArthurHayesSeesHYPEOvertakingSOL

USIranNegotiationGame

Đã ghim