Gartner: Chi phí để thực hiện suy luận trên các mô hình ngôn ngữ lớn sẽ giảm hơn 90% vào năm 2030

MaticHoleFiller · 2026-04-01T01:48:47+00:00

Theo Gartner, đến năm 2030, chi phí để thực hiện suy luận trên một mô hình ngôn ngữ lớn (LLM) có hàng nghìn tỷ tham số sẽ giảm hơn 90% so với năm 2025, điều này sẽ giúp các nhà cung cấp trí tuệ nhân tạo sáng tạo (GenAI) tiết kiệm đáng kể chi phí.Token AI là đơn vị dữ liệu mà mô hình trí tuệ nhân tạo sáng tạo xử lý. Trong phân tích này, một token tương đương với 3,5 byte dữ liệu, tức khoảng 4 ký tự.Chuyên gia phân tích cao cấp của Gartner, Will Sommer, cho biết: “Việc giảm chi phí này sẽ nhờ vào sự nâng cao hiệu quả của bán dẫn và hạ tầng, đổi mới trong thiết kế mô hình, tăng tỷ lệ sử dụng chip, việc sử dụng nhiều hơn các chip suy luận chuyên dụng dành cho mục đích cụ thể, cũng như ứng dụng của thiết bị biên trong các tình huống đặc thù, và nhiều yếu tố khác.”Do ảnh hưởng của các xu hướng này, Gartner dự đoán rằng đến năm 2030, các

MaticHoleFiller

2026-04-01 01:48:47

Theo Gartner, đến năm 2030, chi phí để suy luận trên một mô hình ngôn ngữ lớn (LLM) cỡ nghìn tỷ tham số sẽ giảm hơn 90% so với năm 2025, điều này sẽ giúp các nhà cung cấp AI tạo sinh (GenAI) tiết kiệm một lượng chi phí lớn.

Token AI là đơn vị dữ liệu mà mô hình AI tạo sinh xử lý. Trong phân tích này, một token tương đương với 3,5 byte dữ liệu, tức khoảng 4 ký tự.

Nhà phân tích cấp cao của Gartner Will Sommer cho biết: “Việc giảm các chi phí này sẽ nhờ vào nhiều yếu tố, bao gồm sự cải thiện về hiệu quả của chất bán dẫn và hạ tầng, những đổi mới trong thiết kế mô hình, việc tăng mức sử dụng chip, việc sử dụng nhiều hơn các chip suy luận chuyên dụng cho mục đích cụ thể, và việc triển khai các thiết bị biên trong các kịch bản nhất định.”

Do tác động của các xu hướng này, Gartner dự báo rằng đến năm 2030, hiệu quả chi phí của các mô hình ngôn ngữ lớn sẽ cao hơn tối đa 100 lần so với các mô hình ban đầu cùng quy mô được phát triển vào năm 2022.

Kết quả của mô hình dự báo được chia thành hai nhóm kịch bản bán dẫn:

Kịch bản tiên phong: mô hình xử lý dữ liệu mô phỏng dựa trên các chip tiên tiến.

Kịch bản lai truyền thống: mô hình xử lý dựa trên tổ hợp điển hình của các bán dẫn hiện có; tổ hợp này được đánh giá dựa trên dữ liệu dự báo của công ty tư vấn Gartner.

Trong kịch bản dự báo “lai”, chi phí được tính ra cao rõ rệt so với kịch bản “tiên phong”.

Kịch bản dự báo chi phí suy luận cho trí tuệ nhân tạo tổng quát

Việc giảm chi phí không làm phổ biến hóa các công nghệ trí tuệ tiên phong

Tuy nhiên, việc giá token của các nhà cung cấp dịch vụ AI tạo sinh giảm sẽ không được chuyển hoàn toàn sang khách hàng doanh nghiệp. Hơn nữa, số lượng token cần thiết cho các ứng dụng trí tuệ tiên phong sẽ cao hơn rất nhiều so với các ứng dụng phổ biến hiện nay. Ví dụ, số lượng token mà một mô hình tác tử cần để hoàn thành từng nhiệm vụ là gấp 5 đến 30 lần so với chatbot hội thoại AI tạo sinh thông thường, và có thể thực hiện nhiều nhiệm vụ hơn so với những nhiệm vụ mà con người sử dụng AI tạo sinh để hoàn thành.

Mặc dù chi phí theo đơn vị token thấp hơn sẽ giúp AI tạo sinh tiên tiến hơn có năng lực mạnh mẽ hơn, nhưng các tiến bộ này sẽ dẫn đến nhu cầu token tăng mạnh. Vì tốc độ tiêu thụ token nhanh hơn tốc độ giảm chi phí token, tổng chi phí suy luận dự kiến sẽ tăng lên.

Sommer cho biết: “Các giám đốc sản phẩm không nên nhầm lẫn sự mất giá của token khi được thương mại hóa với việc dân chủ hóa suy luận tiên phong. Khi chi phí của các công nghệ thông minh được thương mại hóa tiến gần về 0, thì nguồn tài nguyên tính toán và hệ thống cần để hỗ trợ suy luận cấp cao vẫn còn vô cùng khan hiếm. Những giám đốc sản phẩm hiện nay dùng token rẻ để che lấp các vấn đề về hiệu quả kiến trúc, ngày mai sẽ khó mở rộng quy mô tính tự chủ.”

Nền tảng có thể phối hợp xử lý các khối lượng công việc dưới nhiều mô hình khác nhau sẽ nhận được giá trị. Các nhiệm vụ thông thường, tần suất cao phải được phân bổ cho các mô hình ngôn ngữ nhỏ hiệu quả hơn và được tối ưu cho các lĩnh vực cụ thể, bởi các mô hình này có thể hoàn thành các tác vụ trong quy trình công việc đặc thù với hiệu suất tốt hơn trong khi chi phí chỉ bằng một phần nhỏ so với giải pháp dùng chung. Việc suy luận chi phí cao ở cấp độ tiên phong phải được giới hạn nghiêm ngặt, và được sử dụng riêng cho các nhiệm vụ có lợi nhuận cao và suy luận phức tạp.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích