Đây là một mô hình tầm trung, "làm việc hiệu quả nhất" trong dòng Sonnet. Trong bài kiểm tra năng lực đại diện SWE-bench Pro, nó đạt 63,2 điểm – chỉ kém 6 điểm so với flagship Opus 4.8 (69,2 điểm). Ở một khía cạnh khác, trong bài kiểm tra lý luận cấp độ nghiên cứu sinh GPQA-AAA v2, Sonnet 5 lại vượt trội hơn Opus 4.8.

Định giá quan trọng hơn. Trong thời gian ưu đãi, phí đầu vào mỗi triệu token là 2 USD, đầu ra là 10 USD. Opus 4.8 có giá tương ứng là 5 USD và 25 USD – Sonnet 5 với mức giá từ 40% đến 60% đã đạt được hơn 90% khả năng của flagship.

Tin tức này có thể được hiểu theo hai cách.

Cách thứ nhất: AI lại trở nên rẻ hơn. Chi phí giảm có lợi cho tất cả mọi người, cuộc chiến Chatbot tiếp tục, các nhà sản xuất mô hình cạnh tranh khốc liệt.

Cách thứ hai – cũng là điều thị trường đang định giá – mô hình càng rẻ, sức mạnh tính toán và bộ nhớ càng đắt.

Ngay trong ngày phát hành Claude Sonnet 5, chỉ số bán dẫn Mỹ tăng gần 4%. Trong câu chuyện AI ba năm qua có một đường thẳng: hiệu quả suy luận sẽ triệt tiêu nhu cầu về chip. Nhưng nhận định này đã sai ở mọi điểm dữ liệu.

Giảm giá: Giảm nghìn lần trong ba năm

Trước hết hãy nhìn vào đường giảm giá.

Năm 2022, chi phí gọi API cấp GPT-4 khoảng 0,03 USD mỗi nghìn token. Đến năm 2025, giá của các mô hình có hiệu suất tương đương – theo thước đo của Báo cáo Chỉ số AI Stanford – đã giảm khoảng 280 lần. Kết hợp với hiệu ứng tổng hợp từ mã nguồn mở và cải thiện hiệu quả, mức giảm được ngành công nhận là 1000 lần.

Không chỉ một loại mô hình giảm, mà tất cả các nhà sản xuất đều giảm.

Lần này Anthropic Sonnet 5 đối đầu với mật độ năng lực của Opus 4.8, nhưng giá chỉ bằng 40% đến 60%. Google Gemini Omni Flash có giá 0,10 USD mỗi giây cho video, Nano Banana 2 Lite – mô hình hình ảnh xuất ảnh trong 4 giây, mỗi nghìn tấm chỉ 0,034 USD – bằng một nửa thế hệ trước. DeepSeek-V4-Pro đã đưa đầu vào triệu token xuống mức 0,035 USD.

Việc giảm giá không chỉ xảy ra trên bảng giá.

Ngày 24 tháng 6, The Information đưa tin OpenAI đã tìm ra một kỹ thuật tối ưu hóa phần mềm nội bộ – nhu cầu GPU cho một khâu tính toán nào đó đã giảm hơn một nửa, pool GPU chuyên dụng giảm từ vài nghìn xuống còn vài trăm. Cùng tháng, Meta đề xuất giải pháp Vistara: kết nối lại bộ nhớ DDR4 từ các máy chủ đã nghỉ hưu thông qua chip CXL tự phát triển, kết hợp với DDR5 theo tỷ lệ 3:1, giảm 25% chi phí máy chủ suy luận.

Đến ngày 30 tháng 6, Jieyue đã công khai công nghệ giải mã suy luận JetSpec – tốc độ suy luận của mô hình lớn có thể tăng gần 10 lần. Quy đổi ra, với cùng lượng token đầu ra, số GPU cần thiết có thể giảm mạnh một bậc độ lớn.

Nếu AI là một hàm chi phí-nhu cầu truyền thống, những tín hiệu này sẽ chỉ ra một điều: tương lai cần ít chip hơn.

Phố Wall đã sợ hãi như vậy.

Vào cuối tuần DeepSeek phát hành R1 vào tháng 1, cổ phiếu cơ sở hạ tầng AI đã trải qua đợt bán tháo mạnh nhất trong những năm gần đây. Cổ phiếu của công ty AI đám mây Nebius giảm mạnh 40%. Câu chuyện rất đơn giản: mô hình mã nguồn mở Trung Quốc bán token với giá 0,1 USD, công ty Mỹ chi 2 USD, nhu cầu tính toán chắc chắn sẽ sụp đổ.

Bùng nổ: Tổng chi tiêu tăng 320%

Nhưng điều thực tế xảy ra lại hoàn toàn ngược lại.

Đồng sáng lập Nebius Roman Chernin sau đó nhớ lại: tuần DeepSeek gây hoảng loạn, "có thể là tuần bán hàng tốt nhất của chúng tôi." Phản ứng đầu tiên của bộ phận mua hàng khi thấy chi phí giảm mạnh không phải là cắt giảm ngân sách, mà là cuối cùng có thể chạy suy luận ở quy mô lớn.

Năm 2024, tổng chi tiêu toàn cầu của doanh nghiệp cho AI tổng hợp khoảng 11,5 tỷ USD. Năm 2025, con số này tăng vọt lên 37 tỷ USD – tăng 320% trong một năm. Theo khảo sát doanh nghiệp của Menlo Ventures, doanh nghiệp trung bình năm 2025 đang chạy "hàng chục" ứng dụng AI, trong khi năm 2023 con số này là 1 đến 2.

Dữ liệu ở mọi chiều đều nằm trên cùng một đường cong:

Uber đã đốt hết ngân sách AI cả năm vào tháng 4 năm 2026. AT&T hiện xử lý 27 tỷ token mỗi ngày – 18 tháng trước, con số này là 800 triệu. Một công ty bảo hiểm y tế lớn của Mỹ, mức tiêu thụ token hàng tháng đã tăng từ 3 triệu lên hơn 150 triệu.

Phân tích ra, sự tăng trưởng đến từ ba hướng chồng chéo.

Thứ nhất là sự lan tỏa ứng dụng. Mỗi bộ phận marketing của doanh nghiệp sử dụng 3 công cụ AI, bộ phận bán hàng 4, bộ phận dịch vụ khách hàng 2, cộng với pháp lý, nhân sự, tài chính – từ 2 lên hàng chục, đây là bước nhảy về số lượng.

Thứ hai là độ sâu của từng ứng dụng. Lấy AI dịch vụ khách hàng làm ví dụ: năm 2023, tương tác hàng ngày khoảng 500 lần, mỗi lần khoảng 800 token, kết thúc sau khi hoàn thành cuộc hội thoại. Đến năm 2025, tương tác hàng ngày 15.000 lần, mỗi lần khoảng 4500 token, mỗi tương tác còn kích hoạt thêm 3 đến 5 lần suy luận tiếp theo – phân tích cảm xúc, dự đoán nâng cấp, đánh giá chất lượng – tất cả đều chồng lên cùng một điểm vào.

Thứ ba là sự nâng cấp độ phức tạp của chính mô hình. Từ mô hình đơn vòng 7B tham số, nâng cấp lên tác nhân suy luận đa bước trên 70B tham số, mỗi vòng suy luận nội bộ tiêu thụ token gấp hàng chục đến hàng trăm lần so với tương tác tuyến tính.

Nói cách khác, chi phí token giảm xuống một phần nghìn, nhưng số token thị trường sử dụng tăng lên hàng vạn lần. Hiệu ứng ròng chỉ có một hướng: chi tiêu bùng nổ.

Lượng token tiêu thụ tăng gấp đôi mỗi hai tháng – nhiều đường dẫn độc lập ghép lại thành cùng một con số. Vẽ đường cong hàm mũ này đến năm 2027, chi tiêu AI hàng năm của doanh nghiệp vượt 100 tỷ USD là bài toán số học, không phải dự đoán.

Truyền dẫn: Lưu trữ tăng sáu lần, cơ sở hạ tầng chip hướng tới 7,6 nghìn tỷ

Nhu cầu được kích thích bởi giảm giá không dừng lại ở lớp phần mềm.

Mức tăng giá bộ nhớ là tín hiệu trực tiếp nhất cho thấy nhu cầu AI truyền từ lớp mô hình sang lớp phần cứng.

Từ quý 3 năm 2025, giá giao ngay của DRAM và NAND Flash đã tăng hơn 300%. Giá hạt DDR5 trong một tháng tăng vọt hơn 90%. Bước sang năm 2026, việc tăng giá không những không dừng mà còn tăng tốc.

Quý 1, mức tăng giá hợp đồng DRAM từ dự kiến 55%-60% được sửa thành 90%-95%; NAND từ 33%-38% sửa thành 55%-60%. Dự báo của TrendForce cho quý 2 là DRAM tăng thêm 58%-63%, NAND tăng thêm 70%-75%.

Lấy sản phẩm tiêu dùng làm mốc: bộ đôi Acer Predator 32G DDR5 6000, cuối tháng 10 năm 2025 giá còn 1300 NDT, đến tháng 1 năm 2026 đã tăng lên 2700 NDT. Gấp đôi trong ba tháng, cực kỳ hiếm thấy trên thị trường hàng tiêu dùng.

Kinh doanh bộ nhớ của Samsung trong quý 4 năm 2025 đạt lợi nhuận hoạt động quý cao nhất lịch sử – vượt 20 nghìn tỷ won, tương đương 96,2 tỷ NDT. Và động lực cơ bản nhất cho đà tăng này hơn một năm qua không đến từ nâng cấp tiêu dùng điện thoại hay PC, mà là từ việc mua sắm khổng lồ HBM, SSD doanh nghiệp, DRAM mật độ cao của các trung tâm dữ liệu AI.

Một báo cáo của Goldman Sachs vào tháng 5 đã tính toán đến mức tối đa.

Báo cáo dự đoán, từ năm 2026 đến 2031, tổng chi tiêu vốn tích lũy cho cơ sở hạ tầng AI toàn cầu khoảng 7,6 nghìn tỷ USD. Riêng năm 2026 là 765 tỷ USD, đến năm 2031 tăng lên 1,6 nghìn tỷ. Trong đó, một GPU cơ sở (dựa trên NVIDIA VR200 Rubin) được tính là 80.500 USD, NVIDIA chiếm 75% tổng chi tiêu năng lực tính toán mỗi kỳ.

Goldman Sachs cũng đặt ra một câu hỏi quan trọng trong báo cáo: Liệu ASIC (chip chuyên dụng) thay thế GPU ồ ạt có thể cắt giảm tổng nhu cầu không?

Câu trả lời phụ thuộc vào tình huống. Nếu nhu cầu không co giãn – nhu cầu sức mạnh tính toán AI của doanh nghiệp là cố định – thì việc thay thế bằng ASIC có thể trực tiếp giảm tổng nhu cầu vốn. Nhưng nếu nhu cầu co giãn – năng lực tính toán càng rẻ thì càng mua nhiều – thì sự thay đổi tổ hợp chip chủ yếu định hình lại sự phân phối lợi nhuận giữa các nhà cung cấp khác nhau, chứ không phải quy mô tổng chi tiêu.

Kịch bản cơ sở của Goldman Sachs chọn cái sau.

Giá cổ phiếu Mỹ cũng đi theo cùng một hướng. SanDisk từ đầu năm đã tăng 857%, Bernstein trong báo cáo ngày 30 tháng 6 đã nâng mục tiêu giá lên 3000 USD. AMD tăng 7% trong một ngày, lập kỷ lục lịch sử mới. Các công ty làm GPU, làm bộ nhớ, làm đóng gói, làm thiết bị trung tâm dữ liệu – tất cả đều ở gần mức cao mới.

Con số được trích dẫn trong bài tổng quan của Edgen.tech ngày 11 tháng 6 có tác động mạnh nhất: giá chip bộ nhớ trong năm qua đã tăng gấp sáu lần.

Nhãn "phục hồi theo chu kỳ" không thể gắn được. Thứ đã tăng gấp sáu lần, đằng sau nó là toàn bộ nhu cầu của hệ thống kinh tế đang định giá lại cơ sở hạ tầng vật lý của AI.

Nguồn gốc: Jevons đã trả lời từ năm 1865

William Stanley Jevons đã viết một cuốn sách có tên "Vấn đề than đá" vào năm 1865.

Quan sát cốt lõi của ông là: sau khi Watt cải tiến động cơ hơi nước, mức tiêu thụ than trên một đơn vị giảm mạnh, nhưng tổng tiêu thụ than của Anh lại không giảm mà còn tăng. Bởi vì hiệu quả tăng lên có nghĩa là năng lượng hơi nước trở nên chấp nhận được về mặt chi phí trong nhiều ngành công nghiệp hơn – dệt may, đường sắt, khai thác mỏ, vận tải biển – mỗi kịch bản mới đều tạo ra nhu cầu than mà trước đây không tồn tại.

160 năm sau, cùng một công thức được lặp lại với năng lực tính toán AI.

Các doanh nghiệp đã tính toán. Với mức giá token năm 2022, cuộc hội thoại dịch vụ khách hàng suy luận thời gian thực là không khả thi về mặt kinh tế. Các kịch bản không khẩn cấp không đáng để chạy AI. Việc tạo nội dung cá nhân hóa chỉ có thể thực hiện ở cấp độ nhóm nhỏ, chứ không phải cấp độ người dùng. Đến năm 2025, giá đã giảm 1000 lần, những "nhu cầu mà trước đây không tồn tại" này đã trở thành nhu cầu thiết yếu.

Chernin của Nebius đã đưa ra một tổng kết trực tiếp nhất: "Mỗi lần chúng tôi làm cho cùng một đơn vị thông minh trở nên rẻ hơn, chúng tôi không giảm tiêu thụ, mà là tăng tiêu thụ – bởi vì cùng một ngân sách có thể giải quyết các nhiệm vụ phức tạp hơn."

Thị trường đã bỏ qua một lực đẩy cấu trúc khác: vòng phản hồi tích cực của biên lợi nhuận gộp.

Đường cong biên lợi nhuận gộp của suy luận AI trong lịch sử không tìm thấy vật tương ứng. Một công ty cung cấp API, ở giai đoạn khởi đầu biên lợi nhuận gộp có thể chỉ 10% – đào tạo mô hình đắt, suy luận đắt. Nhưng tối ưu hóa phần mềm (hợp nhất toán tử, lượng tử hóa, giải mã suy luận) mỗi tháng đều giảm chi phí suy luận, trong khi điều chỉnh giá luôn chậm hơn một nhịp. Vì vậy biên lợi nhuận gộp leo từ 10% lên 90% nhanh hơn bất kỳ ngành truyền thống nào.

Biên lợi nhuận gộp thúc đẩy lợi nhuận, lợi nhuận bổ sung thêm mua sắm, mua sắm làm giảm chi phí – vòng phản hồi tích cực, không có trần.

"Nếu bạn có DRAM, bạn có thể bán token; nếu không có DRAM, bạn không thể bán token." Câu nói này đang trở thành phương trình cơ bản của nhu cầu chip AI.

Hai giả định nhạy cảm trong báo cáo Goldman Sachs cũng đang củng cố cùng một nhận định. Nếu tuổi thọ kinh tế của chip giảm từ 5 năm xuống 3 năm, chu kỳ thay thế tăng tốc, nhu cầu vốn tích lũy trực tiếp tăng lên một bậc. Bộ nhớ trên mỗi chip cao hơn dự kiến 25% – chủ yếu thay đổi sự phân phối chi tiêu trong ngăn xếp chip, ảnh hưởng ròng đến tổng thể 7,6 nghìn tỷ là có hạn, nhưng hướng là giống nhau: tiền sẽ không tiêu ít đi.

Kết cục: Ai nắm giữ sức mạnh tính toán

Lệnh dỡ bỏ kiểm soát xuất khẩu Fable 5 – cấm vào ngày 12 tháng 6, gỡ bỏ vào ngày 30 tháng 6, ba tuần trước sau – đã cho một chú thích bất ngờ cho nghịch lý này.

Lý do kiểm soát là "rủi ro an ninh quốc gia". Việc dỡ bỏ kiểm soát không liên quan gì đến việc rủi ro biến mất – các sản phẩm thay thế đã xuất hiện. Các đội châu Á như Tulongfeng đã tung ra các mô hình gần đẳng cấp Mythos trong thời gian bị kiểm soát, sức răn đe của lệnh phong tỏa nhanh chóng về không. Việc dỡ bỏ là do thực tế, không liên quan đến thiện chí.

Đoạn xen này vừa đúng với chủ đề chính của nghịch lý giảm chi phí AI: các mô hình có thể thay thế. Từ GPT đến Claude đến DeepSeek đến các mô hình mã nguồn mở, không ai có thể độc quyền bản thân năng lực AI – người ta đặt rào cản, thì người khác tìm đường vòng.

Phần cứng không phải là logic này.

GPU không được. DRAM không được. Chu kỳ xây dựng nhà máy wafer tính bằng năm. Năng suất máy quang khắc là cố định. Độ co giãn cung cấp silicon độ tinh khiết cao gần như bằng không. Đây đều là các định luật vật lý, không phải chiến lược kinh doanh. Tối ưu hóa phần mềm có thể giảm chi phí mô hình một nghìn lần, nhưng không thể giảm một ngày trong chu kỳ xây dựng nhà máy wafer.

Điểm cuối của việc giảm giá mô hình AI, nếu nghịch lý này tiếp tục chạy, không chỉ đến việc phi tính toán hóa – mà chỉ đến việc tập trung lại quyền định giá năng lực tính toán. Dù bạn sử dụng mô hình của ai, token đều phải chạy trên chip của ai đó. Mỗi đồng tiền mà các nhà sản xuất mô hình cạnh tranh giảm giá, cuối cùng đều trở thành doanh thu trong sổ sách của trung tâm dữ liệu, nhà máy wafer và dây chuyền sản xuất bộ nhớ. Giảm chi phí càng mạnh, sự chuyển dịch này càng không thể đảo ngược.

Tuyên bố miễn trách nhiệm và điều khoản

        Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không cấu thành lời khuyên đầu tư cá nhân, cũng không xem xét đến mục tiêu đầu tư, tình trạng tài chính hoặc nhu cầu đặc biệt của từng người dùng. Người dùng nên xem xét mọi ý kiến, quan điểm hoặc kết luận trong bài viết này có phù hợp với hoàn cảnh cụ thể của họ không. Đầu tư dựa trên bài viết này, tự chịu trách nhiệm.

DRAM-8,45%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateCompletesDividendDistribution
138,28K Phổ biến
#
StrategyBuybackSurges12%
1,27M Phổ biến
#
IsraelStrikesIranBTCPlunges
67,29K Phổ biến
#
PredictWorldCupShare20000U
566,26K Phổ biến
#
TrumpDisclosesOver100MBTCETH
3,83M Phổ biến

Đã ghim

sơ đồ trang web

AI càng rẻ, chip càng đắt

Giảm giá: Giảm nghìn lần trong ba năm

Bùng nổ: Tổng chi tiêu tăng 320%

Truyền dẫn: Lưu trữ tăng sáu lần, cơ sở hạ tầng chip hướng tới 7,6 nghìn tỷ

Nguồn gốc: Jevons đã trả lời từ năm 1865

Kết cục: Ai nắm giữ sức mạnh tính toán

Chủ đề thịnh hành

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Đã ghim