Ni Ya Yu: Hướng tới ứng dụng thông minh phía cuối, Quốc Khoa Vi Micro phát triển NPU và bộ công cụ hiệu quả hơn

MaticHoleFiller · 2026-04-06T19:52:01+00:00

Cục Khoa Vi Micro trình diễn tiến bộ công nghệ NPU tại Hội nghị Thủ lĩnh IC Trung Quốc 2026, đặc biệt là ứng dụng của thuật toán FlashAttention. Ni Ya Yu chỉ ra rằng, mặc dù FlashAttention đã nâng cao rõ rệt hiệu quả suy luận, nhưng NPU vẫn cần vượt qua các thách thức như khả năng tính toán của đơn vị vector. Cục Khoa Vi Micro cam kết hợp tác đổi mới giữa thuật toán và phần cứng, thúc đẩy phát triển nền tảng tính toán thông minh hiệu quả để đáp ứng nhu cầu về sức mạnh tính toán của thị trường.

MaticHoleFiller

2026-04-06 19:52:01

Đang tạo bản tóm tắt

Giao dịch cổ phiếu chỉ cần xem báo cáo nghiên cứu của nhà phân tích Golden Qilin, có uy tín, chuyên nghiệp, kịp thời, toàn diện—giúp bạn khai phá các cơ hội theo chủ đề có tiềm năng!

（Nguồn：iKesia）

Ngày 1 tháng 4, tại hội nghị thượng đỉnh các nhà lãnh đạo IC Trung Quốc năm 2026 “AI biên và chip tăng tốc tính toán” thuộc diễn đàn kỹ thuật theo chiều dọc, ông Ni YaYu, Bộ trưởng Bộ phận Thuật toán AI của Guokekey, đã có bài phát biểu theo chủ đề “FlashAttention-4：Thiết kế mô hình đường ống suy luận NPU cho thế hệ mô hình lớn mới”.

Khi các mô hình lớn tăng tốc và dần đi vào triển khai trong ngành, hiệu suất suy luận, băng thông bộ nhớ và mức tiêu thụ điện năng hệ thống trở thành các nút thắt quan trọng trong triển khai trên thiết bị đầu cuối. Đặc biệt trong bối cảnh Transformer và các mô hình ngôn ngữ cỡ lớn tiếp tục tiến hóa, hiện thực hóa hiệu quả cơ chế chú ý (Attention) đã trở thành một đột phá quan trọng trong việc tối ưu kiến trúc chip và chuỗi công cụ.

Ni YaYu cho biết, Guokekey đang tập trung vào việc thăm dò triển khai các công nghệ tiên phong như FlashAttention trên nền tảng NPU, thúc đẩy xây dựng kiến trúc NPU và chuỗi công cụ phù hợp hơn cho triển khai sản xuất hàng loạt ở thiết bị đầu cuối, cung cấp năng lực tính toán hiệu năng cao cho các kịch bản như lái xe tự động, điện toán biên, thiết bị thông minh và AIGC.

NPU triển khai “bản đầy đủ” FlashAttention vẫn gặp thách thức

Là một trong những cấu trúc tính toán cốt lõi trong mô hình lớn, cơ chế chú ý trong quá trình vận hành thực tế thường gặp các vấn đề như chi phí truy cập bộ nhớ cao và hiệu suất đường ống bị hạn chế. Việc FlashAttention được đề xuất đã tạo ra một hướng đi mới để giải quyết vấn đề này.

FlashAttention là một thuật toán chú ý chính xác nhanh và tiết kiệm bộ nhớ được Tri Dao và các cộng sự thuộc Đại học Stanford đề xuất vào năm 2022. Nó thông qua tái cấu trúc tương đương quá trình tính toán chú ý: bằng cách tính theo khối, Softmax trực tuyến, tính lại và đường ống bất đồng bộ, giữ lại quá trình tính trung gian trong bộ nhớ đệm trên chip, giảm áp lực băng thông khi truy cập lưu trữ bên ngoài, từ đó cải thiện đáng kể hiệu suất suy luận.

Vào giữa tháng 3 vừa qua, phiên bản FlashAttention 4.0 đã được phát hành chính thức. Ni YaYu chỉ ra rằng, FlashAttention từ 1.0 tiến hóa lên 4.0 đã liên tục được tăng cường về tính song song, hỗ trợ chuỗi dài, tính toán độ chính xác thấp và thực thi bất đồng bộ. Tuy nhiên, so với GPU, NPU hiện tại vẫn còn khoảng cách về năng lực tính toán của đơn vị vector, bố trí đường ống bất đồng bộ, điều độ động và ngữ cảnh cực dài. Ni YaYu cho rằng, để đạt được “bản đầy đủ” FlashAttention, cần thiết kế đồng bộ xoay quanh đường ống tính toán, tái sử dụng dữ liệu và băng thông hệ thống.

Guokekey NPU 4.0：Xây dựng đơn vị suy luận hiệu quả hơn

Từ năm 2020, Guokekey liên tục đầu tư vào nghiên cứu và phát triển NPU tự chủ, hình thành lộ trình tiến hóa từ GKNPU 1.0 đến 4.0, với năng lực sản phẩm được nâng cấp theo hướng năng lực tính toán cao hơn, phủ mô hình rộng hơn và tỷ lệ hiệu năng/hiệu suất năng lượng tối ưu hơn. Hiện tại, các dòng chip AI thị giác và AI gắn trên xe của Guokekey đã trang bị NPU phiên bản 3.0, hỗ trợ sức mạnh tính toán từ 0.5T đến 8T, hỗ trợ triển khai tại thiết bị đầu cuối các mô hình AI như thị giác, âm thanh, chuỗi thời gian.

Trong thiết kế kiến trúc GKNPU 4.0, Guokekey đề xuất một kiến trúc mảng xung nhịp tăng cường hướng tới tính toán chú ý hiệu quả, nhằm mở rộng có chủ đích năng lực tính toán ma trận và vector, tăng cường hỗ trợ cho các thao tác then chốt trong cơ chế chú ý của mô hình lớn, nén đường dẫn di chuyển dữ liệu và chi phí đường ống, đồng thời nâng cao năng lực tính toán khép kín trên chip. Thiết kế này nhằm giảm sự phụ thuộc vào băng thông bên ngoài, nâng cao hiệu suất thực thi của chuỗi liên kết suy luận, từ đó ứng phó hiệu quả với các nút thắt băng thông trong suy luận mô hình lớn, áp lực bộ nhớ do phân mảnh giá trị kích hoạt và ngữ cảnh cực dài.

Tăng cường chuỗi công cụ, thúc đẩy triển khai quy mô hiệu quả

Song song với tiến hóa kiến trúc NPU, Guokekey liên tục củng cố năng lực chuỗi công cụ. Chuỗi công cụ GKToolchain 3.0 thế hệ mới hướng tới các kịch bản trường năng lực tính toán dị cấu trúc trên thiết bị đầu cuối, tập trung nâng cao năng lực biên dịch cảm nhận phần cứng, tự động chia khối, tự động vectơ hóa, đọc/ghi dữ liệu bất đồng bộ và điều phối đường ống tính toán, thúc đẩy việc triển khai mô hình từ “có thể thích ứng” chuyển sang “hiệu quả cao, có thể mở rộng theo quy mô”.

Đồng thời, chuỗi công cụ tiếp tục tiến hóa theo các hướng tiên phong như quản lý bộ nhớ động và tăng tốc suy luận mang tính đầu cơ, nâng cao khả năng hỗ trợ cho việc quản lý ngữ cảnh dài và các quy trình suy luận phức tạp, giúp khách hàng hoàn thành hiệu quả vòng khép kín triển khai từ mô hình đến chip.

Khi các ứng dụng AI chuyển từ phía huấn luyện sang phía suy luận và từ đám mây sang thiết bị đầu cuối, yêu cầu của ngành đối với nền tảng tính toán đang chuyển từ “hiệu năng đỉnh cao” sang năng lực tổng hợp “hiệu năng năng lượng cao, có thể sản xuất hàng loạt, dễ triển khai”. NPU khi triển khai theo quy mô ở thiết bị đầu cuối có ưu thế đáng kể về chi phí và mức tiêu thụ điện năng.

Ni YaYu cho biết, Guokekey sẽ tiếp tục kiên trì đổi mới phối hợp giữa thuật toán và phần cứng, bám sát các nút thắt cốt lõi của suy luận mô hình lớn, không ngừng hoàn thiện hệ thống kiến trúc NPU, năng lực sản phẩm và chuỗi công cụ, thúc đẩy nền tảng tính toán thông minh ở thiết bị đầu cuối tiến hóa theo hướng hiệu năng cao hơn, tiêu thụ điện năng thấp hơn và khả thi về mặt kỹ thuật tốt hơn, đồng thời cung cấp cho khách hàng các giải pháp năng lực tính toán có tính cạnh tranh hơn.

Thông tin khổng lồ, phân tích chính xác—tất cả đều có trên ứng dụng Tài chính Sina

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.