Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
CFD
Phái sinh CFD cổ phiếu Hoa Kỳ
Cổ phiếu Hoa Kỳ
Tiếp cận cổ phiếu và quỹ ETF thực của Hoa Kỳ
Cổ phiếu Hongkong
Giao dịch cổ phiếu chất lượng được niêm yết tại Hongkong
Cổ phiếu Hàn Quốc
SK Hynix
Giao dịch cổ phiếu Hàn Quốc thực và đầu tư vào các tài sản phổ biến
Futures cổ phiếu
Đòn bẩy cao, giao dịch 24/7
Cổ phiếu token hóa
Được hỗ trợ bởi tài sản cổ phiếu thực
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
GUSD
Đúc GUSD để nhận lợi suất từ RWA kho bạc
Hoạt động cổ phiếu
Giao dịch cổ phiếu phổ biến và nhận airdrop hấp dẫn
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
Claude Code 80% lời nhắc nói xóa là xóa, Anthropic dùng Fable 5 làm mẫu: "Giảm chi phí" của ngành AI mới chỉ bắt đầu.
Đây là thực tế đang diễn ra. Theo dữ liệu mới nhất, chi tiêu của chính Anthropic cho sức mạnh tính toán đã gấp 2.3 lần chi lương. Với chi phí toàn bộ của một kỹ sư cao cấp là 224.000 USD, mỗi kỹ sư của Anthropic tương ứng với khoảng 515.000 USD chi phí tính toán mỗi năm. Nghĩa là: con người còn chưa đắt bằng mô hình.
Trước những hóa đơn như vậy, ngay cả Claude cũng phải bắt đầu tiết kiệm token.
Claude Code: Đốt token để đổi lấy ảo giác "tôi rất năng suất"
Gần đây, trong ngành lại xuất hiện một từ mới: Token Apocalypse (Ngày tận thế của token).
Từ token maxing đến token apocalypse, báo hiệu một sự thay đổi mô hình rất lớn thực sự đang xảy ra trong ngành AI. Vào tháng 3, tháng 4 năm nay, mọi người còn khoe khoang mình đã dùng bao nhiêu token, thậm chí coi nó như một bảng xếp hạng. Nhưng sử dụng AI không tự động đồng nghĩa với tiết kiệm tiền, vì vậy mọi người bắt đầu nhấn mạnh hơn vào chi phí của từng token.
Tinh tế hơn, các mô hình lớn còn đang mở rộng nhiều công việc vốn dĩ không cần dùng AI. Bây giờ chúng ta không muốn tự đọc PDF, không muốn tự xem văn bản dài, mọi thứ đều muốn AI tóm tắt. Hoặc dùng AI chuyển những thứ này thành slide, rồi đưa cho người khác, người đó có thể lại dùng AI để đọc những slide đó... AI giống như đang cố gắng bơm thêm một lớp giá trị vào những công việc vốn đã rất ảo, đồng thời cũng âm thầm đẩy hóa đơn lên cao.
Hiện nay, mất kiểm soát chi phí đã trở thành bình thường. Amazon, Adobe, Atlassian, Citigroup và các công ty khác bắt đầu kiểm soát chặt chẽ việc sử dụng AI:
Các công ty lớn hoặc đang tìm mọi cách tiết kiệm, hoặc trực tiếp phanh gấp việc lãng phí token. Do đó, thông điệp nhân viên nhận được vô cùng mâu thuẫn: một bên là "AI có thể tăng hiệu suất của bạn lên 100 lần, phải dùng", bên kia là "đừng làm công ty phá sản nữa".
Đây cũng là vấn đề điển hình nhất trong đợt phổ cập đầu tiên của các công cụ AI: khi công cụ được tung ra, không có đủ rào cản để ngăn công ty tiêu hàng triệu đô la vào các mô hình ngôn ngữ lớn, cũng không có cơ chế nhắc nhở nhóm rằng token đang bị đốt nhanh chóng. Dù là chatbot hay công cụ viết mã, nhiều sản phẩm đặt "có thể sử dụng" lên hàng đầu, còn quản lý chi phí, hạn ngạch sử dụng, phân cấp mô hình và quản lý ngữ cảnh đều bị xếp sau.
Nhưng Claude Code về bản chất không phải là công cụ năng suất, mà là một công cụ tiếp thị.
Mục tiêu thiết kế của nó rất rõ ràng: khiến bạn cảm thấy mình đang năng suất. Boris, người phụ trách dự án Claude Code, suy nghĩ ban đầu khi làm sản phẩm này là: "Nếu mô hình trở nên đủ thông minh, mã sẽ trở nên như thế nào? Tôi muốn sử dụng những thứ này như thế nào?" — điểm xuất phát không phải là "làm thế nào để giúp nhà phát triển tiết kiệm token", mà là "làm thế nào để thể hiện sự thông minh của mô hình".
Anthropic sẵn sàng đốt một lượng lớn token cho "cảm giác" này — dù là tiền của bạn hay tiền của chính họ. Tiêu 200 đô la trong năm phút, với Claude Code không phải là tai nạn, mà là thiết kế. Logic cơ bản của nó là: vấn đề có thể giải quyết bằng cách đốt nhiều token hơn, tuyệt đối không tìm cách tiết kiệm token hơn. Tất cả sub-agent, tất cả các hiệu ứng UI hào nhoáng, tất cả các reasoning trace dài dòng, đều không phải vì hiệu quả, mà là để khi bạn nhìn vào màn hình, bạn nghĩ "mô hình này thật thông minh, thật giỏi".
Đằng sau đó là một vòng lặp tiếp thị được thiết kế tinh vi: bạn đốt một lượng lớn token, đổi lấy cảm giác "năng suất", do đó thấy Claude tốt, và tiếp tục sử dụng nó. Anthropic thậm chí sẵn sàng tự chịu một phần lớn chi phí token để đổi lấy sự công nhận về mặt cảm xúc này. Đây cũng là lý do tại sao ứng dụng desktop của họ rõ ràng đầu tư không đủ — mục tiêu của Claude Code chưa bao giờ là trở thành một công cụ tốt, mà là trở thành "cửa sổ trưng bày tốt nhất" cho khả năng mô hình của Anthropic.
Và chính triết lý thiết kế "đốt token để đổi lấy trải nghiệm" này đã khiến Claude bị OpenAI bỏ xa về hiệu quả token.
OpenAI luôn cố gắng nén token. Từ nén reasoning trace, đến tối ưu hiệu quả của bản thân mô hình, triết lý của họ là: dùng ít token hơn, làm cùng một công việc. Codex 5.5 là ví dụ điển hình nhất.
Mặc dù các mô hình như Fable 5 rất thông minh, nhưng so với các mô hình khác, hiệu quả của nó không cao, biểu đồ này từ Deep SWE cho thấy rõ vấn đề. Nếu so sánh cùng một nhóm mô hình, càng rõ rệt hơn: GPT-5.5 medium chỉ dùng 20.000 token, nhưng đã đạt được điểm số đáng kinh ngạc; trong khi Opus 4.8 dùng 50.000 token, điểm số lại thấp hơn.
Đây là bức tranh trực tiếp nhất của hai con đường: ngành công nghiệp đang hoảng loạn, Claude đang đốt, OpenAI đang tiết kiệm. Và câu hỏi tiếp theo là — muốn giảm chi phí, điều đầu tiên cần cắt là gì? Câu trả lời là: những prompt đã chất đống quá lâu.
Nợ Prompt của Claude Code: Chất càng nhiều, nợ càng lớn
Trong bài phát biểu mới nhất, Anthropic cho biết họ đã xóa 80% system prompt của Claude Code.
Thành viên nhóm kỹ thuật của Anthropic, Tariq Shihipar, giải thích rằng điều này phản ánh một sự thay đổi căn bản trong cách hướng dẫn mô hình AI — trước đây, người ta cho rằng càng nhiều chỉ thị, càng nhiều ví dụ, mô hình hoạt động càng tốt; nhưng bây giờ, logic này không còn đúng nữa. Mô hình mới Fable 5 còn giàu trí tưởng tượng hơn cả các ví dụ do chính họ đưa ra, ví dụ lại trở thành giới hạn.
Tất nhiên có yếu tố tiếp thị, anh ta đã khoe khoang khả năng của Fable: "Ví dụ dễ giới hạn mô hình, vì nó thực sự giàu trí tưởng tượng hơn các ví dụ chúng tôi đưa ra". Nhưng một sự thật không thể tránh khỏi: ngay cả Anthropic cũng bắt đầu cắt giảm system prompt.
Vậy tại sao trước đây cần nhiều prompt như vậy?
Trong một hai năm qua, giới AI Coding đã hình thành một lối suy nghĩ cố định: ngữ cảnh càng lớn càng tốt, hướng dẫn công cụ càng nhiều càng tốt, system prompt càng đầy đủ càng tốt. Mô hình không biết cách tổ chức dự án? Viết Agents.md. Mô hình không biết cách dùng công cụ? Viết tool descriptions. Mô hình không đủ chủ động? Viết hướng dẫn hành vi. Mô hình không đủ ổn định? Tiếp tục thêm ràng buộc vào system prompt.
Không thể phủ nhận, system prompt từng là năng lực cốt lõi của các công cụ AI Coding. Chỉ cần điều chỉnh nhỏ prompt cho LLM, có thể mang lại cải thiện hiệu suất đáng kể. Nếu cùng một mô hình trong Codex, Cursor, OpenCode và Copilot cho cảm giác khác nhau, thì gần như chắc chắn là do sự khác biệt nhỏ trong prompting.
Đây cũng là lý do Cursor từng dành nhiều thời gian thử nghiệm system prompt, làm A/B testing, tinh chỉnh cách prompt cho các mô hình khác nhau. So với sử dụng Opus trong Claude Code, harness của Cursor có thể cải thiện đáng kể hiệu suất mô hình, một số benchmark đo được cải thiện lên tới 10% đến 30%. Sự khác biệt cốt lõi thường là vài đoạn prompt.
Nhưng vấn đề là hễ prompt có ích, nhóm sẽ liên tục thêm vào. Mô hình nào đó thích dùng lung tung công cụ, thêm một quy tắc; mô hình nào đó không đủ chủ động, thêm một đoạn khuyến khích; mô hình nào đó tìm kiếm quá nhiều, thêm một hạn chế; mô hình nào đó không hiểu ngữ cảnh dự án, lại thêm một file markdown. Mỗi lần thêm đều có lý do, nhưng về lâu dài, system prompt bắt đầu trở thành một gánh nặng ngữ cảnh thường trực khổng lồ.
Vấn đề ở chỗ: system prompt không miễn phí. Mỗi lần gọi, nó đều phải được đọc vào, tính phí, chiếm ngữ cảnh.
Sau khi Claude Code tích hợp tất cả các công cụ và chức năng vào bên trong, system prompt từng phình lên tới 65.000 token; ngay cả khi tắt hầu hết chức năng, vẫn còn 12.000 token. Nói cách khác, mô hình chưa kịp viết một dòng mã, đã phải đeo một cuốn sách hướng dẫn. So sánh, Pi khi khởi động chỉ có ngữ cảnh dưới một nghìn token.
Rắc rối hơn, nợ prompt còn khó phát hiện hơn nợ mã.
Mã cũ, thường lộ ra khi sửa chức năng, chạy thử nghiệm, xử lý lỗi. Prompt cũ, lại có thể chỉ khiến mô hình âm thầm trở nên tồi hơn. Người dùng thấy "Claude Code dạo này không thông minh như trước", hoặc "mô hình mới không mạnh như quảng cáo", nhưng nguyên nhân thực sự có thể là system prompt cũ không theo kịp mô hình mới.
Khi prompt từ cạnh tranh biến thành gánh nặng, Anthropic chọn xóa 80%, cũng có thể cải thiện thêm hiệu quả token.
"Thuế nói nhảm" của Claude: Nói thêm một chữ, tốn thêm một khoản tiền
Claude Code có quá nhiều lời nói nhảm.
Năm nay có một plugin tên Caveman nhanh chóng nổi tiếng, chuyên giải quyết vấn đề này. Tên của nó dịch thẳng là "người hang động", nghĩa là nói như người nguyên thủy — không lịch sự, không thêm ngữ pháp dư thừa, không đặt từ đệm, chỉ giữ lại ý chính.
Thoạt nhìn, nó nghe như một trò đùa. Nhưng một khi hiểu ra, bạn sẽ thấy nó giải quyết một vấn đề rất thực tế trong LLM: quá nhiều lời nói nhảm, quá nhiều token, chi phí cũng không cần thiết tăng cao.
Và nguồn gốc của nó, chính là nhắm vào Claude Code.
"Tôi tạo ra Caveman vào đầu tháng 4, vì lúc đó tôi sử dụng Claude Code nhiều và nhận thấy rất nhiều chi phí token của tôi bị lãng phí vào những chữ không cần thiết: xã giao, diễn đạt mơ hồ, từ chuyển tiếp, và những biểu hiện kiểu trò chuyện không thực sự quan trọng trong agent loop." Người tạo ra Caveman, Julius Brussee nói.
Đánh giá của Brussee cho thấy Caveman so với đầu ra mặc định có thể giảm 65% đến 75% token đầu ra, hiệu quả vẫn vượt trội so với lệnh "hãy ngắn gọn" thông thường. Nó chủ yếu nén ngôn ngữ xung quanh, không ảnh hưởng đến mã, lệnh, đường dẫn, URL, tên hàm và những phần cần chính xác.
Theo báo cáo, giám đốc kỹ thuật của OpenAI, Shayne Sweeney cũng đã đóng góp mã cho dự án này để hỗ trợ Codex.
Thú vị hơn, OpenAI đã áp dụng kiểu ngôn ngữ này vào quá trình suy nghĩ từ lâu.
Một số reasoning trace bị rò rỉ (không phải reasoning summary hiển thị bên ngoài) đã cho thấy manh mối. Nội dung không giống tiếng Anh thông thường, mà giống tốc ký kỹ thuật đã nén:
Những câu này nghe có vẻ buồn cười, thậm chí hơi lộn xộn, nhưng trọng tâm của chúng không phải tính dễ đọc, mà là hiệu quả token. Khi mô hình suy luận nội bộ, nó không cần giữ phép lịch sự, đầy đủ và trôi chảy như khi nói với người dùng. Nó chỉ cần giữ lại hành động, đối tượng, phán đoán và bước tiếp theo. Nói cách khác, miễn là câu trả lời cuối cùng bình thường, mô hình hoàn toàn có thể dùng một ngôn ngữ ngắn hơn, thô hơn, tiết kiệm token hơn để hoàn thành suy nghĩ, nhằm theo đuổi hiệu quả token điên cuồng.
Điều này còn hữu ích hơn cả trong khâu viết Prompt. Nén reasoning token mang lại lợi ích lớn hơn, vì agent thực hiện nhiều bước, suy nghĩ của bước trước trở thành đầu vào của bước sau. Mỗi lần mô hình "nghĩ" ít đi một đoạn, tiết kiệm được không chỉ vài token hiện tại, mà còn là chi phí lặp lại trên toàn bộ chuỗi thực thi phía sau.
Đây chính là một khác biệt rõ ràng giữa OpenAI và Claude.
Claude luôn dễ trò chuyện hơn, và cũng giống một trợ lý suy nghĩ và diễn đạt bằng ngôn ngữ hoàn chỉnh. Chỉ cần nhìn reasoning trace của nó dài hơn nhiều, có thể đoán nó có thể đang dùng tiếng Anh thông thường. Đầu ra và reasoning của nó thường dài hơn, do đó phụ thuộc nhiều hơn vào cửa sổ ngữ cảnh lớn để chứa những nội dung này.
Đây cũng là lý do Claude mặc định sử dụng cửa sổ ngữ cảnh 1 triệu token. Nhiều người nghĩ đó là vì nó muốn chứa codebase lớn hơn, nhưng nguyên nhân thực sự đơn giản hơn: những thứ Claude tạo ra quá dài, không có cửa sổ lớn như vậy thì không chứa nổi. Chúng thậm chí còn kém trong việc nén, khi bạn khôi phục một luồng cũ, Claude sẽ khuyên bạn không nên giữ toàn bộ ngữ cảnh, mà hãy thử compact. Vì chúng không giữ lại reasoning trace — thực tế, chúng xóa những thứ này sau 10 đến 20 phút, vì reasoning token quá kém hiệu quả, không đáng để giữ lại, nếu không chi phí sẽ vô lý đến mức không thể chấp nhận.
Trong khi đó, cửa sổ ngữ cảnh token của mô hình OpenAI khoảng 200.000 hoặc ít hơn, nhưng vì ngay từ đầu chúng đã nén bằng ngôn ngữ ngắn gọn này, nên vẫn ổn.
Một chi tiết đáng suy ngẫm: Nếu Anthropic sửa được vấn đề "nói nhảm quá nhiều", doanh thu của họ sẽ giảm rõ rệt. Nếu nhà phát triển có thể hoàn thành cùng một công việc với mô hình nhưng tạo ra ít token hơn, thì đó là số tiền họ không kiếm được.
Nguồn: InfoQ
Tuyên bố miễn trừ rủi ro và điều khoản