Sự kết thúc của kỷ nguyên định giá cao AI đang đến gần? Năm lý do cấu trúc khiến Token nhất định sẽ giảm giá.

Hiệu suất cải thiện biên giảm dần, chi phí mô hình mã nguồn mở chỉ bằng một phần mười, chip chuyên dụng giảm chi phí suy luận, chi phí chuyển đổi bằng không khiến người dùng chuyển đổi ngay lập tức, mô hình cục bộ trong vòng 4 đến 5 năm có thể chấm dứt chế độ đăng ký. Không gian để các công ty AI lớn duy trì giá cao đang thu hẹp nhanh chóng?
(Bối cảnh trước: Mô hình hàng đầu OpenAI GPT-5.6 Sol độc quyền hạ cánh trên Cerebras, "Thần cổ phiếu tóc trắng" Serenity kêu gọi "Công nghệ được xác nhận" và mua vào đáy)
(Bổ sung bối cảnh: Citrini Research: Tránh bong bóng AI! Chỉ ra "5 vùng mù lợi nhuận cực cao" đón dòng vốn luân chuyển)

Mục lục bài viết

Toggle

  • Song kích từ trần hiệu suất và mã nguồn mở
  • Cách mạng chip và chi phí chuyển đổi bằng không
  • Mô hình cục bộ: Mối đe dọa kết thúc cho chế độ đăng ký

Kỹ sư phần mềm Aditya Patadia trong blog cá nhân chỉ ra: Uber đốt hết ngân sách AI của cả năm trong 4 tháng, Microsoft, Salesforce, GitHub cũng lần lượt tuyên bố sẽ kiểm soát chi tiêu AI của nhân viên, đây đã là khó khăn chung của toàn ngành, không phải vấn đề kỷ luật tài chính của từng công ty. Nhưng anh ấy dự đoán, cấu trúc thu phí đắt đỏ hiện tại của các công ty AI hàng đầu sắp đối mặt với sự đảo ngược.

Song kích từ trần hiệu suất và mã nguồn mở

Quan sát đầu tiên của Patadia: Cải thiện hiệu suất mô hình đang giảm dần theo biên. Mỗi lần lặp mô hình vẫn có tiến bộ, nhưng mức độ tiến bộ ngày càng nhỏ, và vấn đề dữ liệu huấn luyện còn mang tính cấu trúc, các phòng thí nghiệm AI lớn có lẽ đã tiêu hóa gần như tất cả kiến thức sách vở kỹ thuật số trong lịch sử loài người, việc tiếp tục cải thiện tập huấn luyện là cực kỳ khó khăn.

Anh ấy lấy Claude Opus 4.8 và Claude Opus 4.7 có cùng mức giá làm chứng cứ: Khi mô hình không còn có thể thể hiện bước nhảy vọt đáng kể giữa các thế hệ, lý do tăng giá biến mất, cạnh tranh chỉ còn lại một con đường là giảm giá.

Áp lực thứ hai đến từ phe mã nguồn mở. Anh ấy lấy GLM-5.2 làm ví dụ, mô hình mã nguồn mở này trong các bài kiểm tra chuẩn về mã code đã sánh ngang với GPT 5.5 và Claude Opus, nhưng giá chỉ bằng một phần mười của GPT 5.5, tạo ra lợi thế áp đảo về giá.

Đánh giá của Patadia: Miễn là mô hình mã nguồn mở tiếp tục thu hẹp khoảng cách hiệu suất với các mô hình hàng đầu đóng, không gian định giá đóng sẽ tiếp tục bị nén.

Cách mạng chip và chi phí chuyển đổi bằng không

Một đường áp lực khác đối với định giá AI đến từ lớp phần cứng. Patadia chỉ ra, các chip chuyên dụng AI do Cerebras, Groq, Google và các công ty khác phát triển đang viết lại giới hạn dưới của chi phí suy luận. Lấy Google TPU làm ví dụ, chi phí suy luận của nó rẻ hơn 30% đến 70% so với Nvidia H100 GPU.

Nói đơn giản, cùng một lượng tính toán, dùng đúng chip có thể tiết kiệm một khoản tiền lớn, và khoảng cách này sẽ trực tiếp nén giới hạn dưới định giá của các nhà cung cấp dịch vụ mô hình. Ngoài chip, bản thân kiến trúc mô hình cũng đang giảm chi phí: Cơ chế bộ nhớ đệm cho phép các truy vấn lặp lại không cần tính toán lại, kiến trúc hỗn hợp chuyên gia MoE, nói một cách dễ hiểu là cho phép mô hình chỉ gọi một phần "chuyên gia" theo nhu cầu, không cần mỗi lần huy động toàn bộ nơ-ron, giúp mô hình giảm đáng kể chi phí tính toán trong khi duy trì độ chính xác tương đương.

Còn một điểm nữa, Patadia cho rằng yếu tố cấu trúc bị đánh giá thấp nhất: Chi phí chuyển đổi bằng không.

So sánh của anh ấy rất trực tiếp: Hào phòng thủ của các phần mềm truyền thống như Windows, Adobe, Salesforce nằm ở chỗ thay thế chúng có chi phí cực kỳ cao, thường cần nhiều tháng để di chuyển; Mô hình AI không có hào phòng thủ này. Các dịch vụ cổng AI như OpenRouter.ai cho phép nhà phát triển chuyển đổi nhà cung cấp mô hình chỉ trong vài giây, thậm chí có thể lập trình để hệ thống tự động chuyển đổi giữa các nhà cung cấp khác nhau.

Khi sản phẩm cạnh tranh có thể bị thay thế trong tích tắc, bất kỳ nỗ lực tăng giá nào của một nhà cung cấp cũng sẽ trực tiếp đẩy người dùng đi.

Mô hình cục bộ: Mối đe dọa kết thúc cho chế độ đăng ký

Dự đoán táo bạo nhất của Patadia hướng đến mô hình cục bộ. Ước tính của anh ấy trong vòng 4 đến 5 năm: Hiệu suất chip tiếp tục cải thiện cộng với giá bộ nhớ (RAM) chắc chắn giảm, sẽ cho phép máy tính cấp người tiêu dùng và điện thoại thông minh có khả năng thực thi mô hình ngôn ngữ tại chỗ. Anh ấy dự đoán thêm, các hệ điều hành chính thống sẽ tích hợp giao diện triển khai mô hình, cho phép các ứng dụng cục bộ gọi trực tiếp mô hình cục bộ.

Một khi kịch bản này xảy ra, nó có nghĩa là gì? Mô hình đám mây chỉ còn cần thiết cho các nhiệm vụ phức tạp nhất như phân tích tài liệu pháp lý, suy luận ngữ cảnh dài, tích hợp cơ sở dữ liệu chéo. Các nhiệm vụ hàng ngày như tự động hoàn thành mã code, hiệu đính tệp, kiểm tra thực tế cơ bản sẽ được hoàn thành tại chỗ, không còn cần phí đăng ký đám mây $20 hoặc thậm chí $200 mỗi tháng.

Tất nhiên, chính Patadia cũng ghi chú đây là "dự đoán" chứ không phải sự thật chắc chắn, anh ấy tuyên bố đây là "cược táo bạo" của mình, thời gian sẽ cho câu trả lời. Nhưng năm hướng áp lực trên: hiệu suất giảm dần theo biên, sự trỗi dậy của thay thế mã nguồn mở, chip chuyên dụng giảm chi phí, chi phí chuyển đổi bằng không, thay thế mô hình cục bộ, mỗi hướng đều đã có các trường hợp thực tế hỗ trợ, không chỉ là thí nghiệm tư duy thuần túy.

Nếu dự đoán của Patadia đúng, thì đó là điều tốt cho người dùng; nhưng đối với các công ty AI thu tiền, đó lại là chuyện khác.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim