Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Ni Ya Yu: Hướng tới ứng dụng thông minh phía cuối, Quốc Khoa Vi Micro phát triển NPU và bộ công cụ hiệu quả hơn
(Nguồn:iKesia)
Ngày 1 tháng 4, tại hội nghị thượng đỉnh các nhà lãnh đạo IC Trung Quốc năm 2026 “AI biên và chip tăng tốc tính toán” thuộc diễn đàn kỹ thuật theo chiều dọc, ông Ni YaYu, Bộ trưởng Bộ phận Thuật toán AI của Guokekey, đã có bài phát biểu theo chủ đề “FlashAttention-4:Thiết kế mô hình đường ống suy luận NPU cho thế hệ mô hình lớn mới”.
Khi các mô hình lớn tăng tốc và dần đi vào triển khai trong ngành, hiệu suất suy luận, băng thông bộ nhớ và mức tiêu thụ điện năng hệ thống trở thành các nút thắt quan trọng trong triển khai trên thiết bị đầu cuối. Đặc biệt trong bối cảnh Transformer và các mô hình ngôn ngữ cỡ lớn tiếp tục tiến hóa, hiện thực hóa hiệu quả cơ chế chú ý (Attention) đã trở thành một đột phá quan trọng trong việc tối ưu kiến trúc chip và chuỗi công cụ.
Ni YaYu cho biết, Guokekey đang tập trung vào việc thăm dò triển khai các công nghệ tiên phong như FlashAttention trên nền tảng NPU, thúc đẩy xây dựng kiến trúc NPU và chuỗi công cụ phù hợp hơn cho triển khai sản xuất hàng loạt ở thiết bị đầu cuối, cung cấp năng lực tính toán hiệu năng cao cho các kịch bản như lái xe tự động, điện toán biên, thiết bị thông minh và AIGC.
NPU triển khai “bản đầy đủ” FlashAttention vẫn gặp thách thức
Là một trong những cấu trúc tính toán cốt lõi trong mô hình lớn, cơ chế chú ý trong quá trình vận hành thực tế thường gặp các vấn đề như chi phí truy cập bộ nhớ cao và hiệu suất đường ống bị hạn chế. Việc FlashAttention được đề xuất đã tạo ra một hướng đi mới để giải quyết vấn đề này.
FlashAttention là một thuật toán chú ý chính xác nhanh và tiết kiệm bộ nhớ được Tri Dao và các cộng sự thuộc Đại học Stanford đề xuất vào năm 2022. Nó thông qua tái cấu trúc tương đương quá trình tính toán chú ý: bằng cách tính theo khối, Softmax trực tuyến, tính lại và đường ống bất đồng bộ, giữ lại quá trình tính trung gian trong bộ nhớ đệm trên chip, giảm áp lực băng thông khi truy cập lưu trữ bên ngoài, từ đó cải thiện đáng kể hiệu suất suy luận.
Vào giữa tháng 3 vừa qua, phiên bản FlashAttention 4.0 đã được phát hành chính thức. Ni YaYu chỉ ra rằng, FlashAttention từ 1.0 tiến hóa lên 4.0 đã liên tục được tăng cường về tính song song, hỗ trợ chuỗi dài, tính toán độ chính xác thấp và thực thi bất đồng bộ. Tuy nhiên, so với GPU, NPU hiện tại vẫn còn khoảng cách về năng lực tính toán của đơn vị vector, bố trí đường ống bất đồng bộ, điều độ động và ngữ cảnh cực dài. Ni YaYu cho rằng, để đạt được “bản đầy đủ” FlashAttention, cần thiết kế đồng bộ xoay quanh đường ống tính toán, tái sử dụng dữ liệu và băng thông hệ thống.
Guokekey NPU 4.0:Xây dựng đơn vị suy luận hiệu quả hơn
Từ năm 2020, Guokekey liên tục đầu tư vào nghiên cứu và phát triển NPU tự chủ, hình thành lộ trình tiến hóa từ GKNPU 1.0 đến 4.0, với năng lực sản phẩm được nâng cấp theo hướng năng lực tính toán cao hơn, phủ mô hình rộng hơn và tỷ lệ hiệu năng/hiệu suất năng lượng tối ưu hơn. Hiện tại, các dòng chip AI thị giác và AI gắn trên xe của Guokekey đã trang bị NPU phiên bản 3.0, hỗ trợ sức mạnh tính toán từ 0.5T đến 8T, hỗ trợ triển khai tại thiết bị đầu cuối các mô hình AI như thị giác, âm thanh, chuỗi thời gian.
Trong thiết kế kiến trúc GKNPU 4.0, Guokekey đề xuất một kiến trúc mảng xung nhịp tăng cường hướng tới tính toán chú ý hiệu quả, nhằm mở rộng có chủ đích năng lực tính toán ma trận và vector, tăng cường hỗ trợ cho các thao tác then chốt trong cơ chế chú ý của mô hình lớn, nén đường dẫn di chuyển dữ liệu và chi phí đường ống, đồng thời nâng cao năng lực tính toán khép kín trên chip. Thiết kế này nhằm giảm sự phụ thuộc vào băng thông bên ngoài, nâng cao hiệu suất thực thi của chuỗi liên kết suy luận, từ đó ứng phó hiệu quả với các nút thắt băng thông trong suy luận mô hình lớn, áp lực bộ nhớ do phân mảnh giá trị kích hoạt và ngữ cảnh cực dài.
Tăng cường chuỗi công cụ, thúc đẩy triển khai quy mô hiệu quả
Song song với tiến hóa kiến trúc NPU, Guokekey liên tục củng cố năng lực chuỗi công cụ. Chuỗi công cụ GKToolchain 3.0 thế hệ mới hướng tới các kịch bản trường năng lực tính toán dị cấu trúc trên thiết bị đầu cuối, tập trung nâng cao năng lực biên dịch cảm nhận phần cứng, tự động chia khối, tự động vectơ hóa, đọc/ghi dữ liệu bất đồng bộ và điều phối đường ống tính toán, thúc đẩy việc triển khai mô hình từ “có thể thích ứng” chuyển sang “hiệu quả cao, có thể mở rộng theo quy mô”.
Đồng thời, chuỗi công cụ tiếp tục tiến hóa theo các hướng tiên phong như quản lý bộ nhớ động và tăng tốc suy luận mang tính đầu cơ, nâng cao khả năng hỗ trợ cho việc quản lý ngữ cảnh dài và các quy trình suy luận phức tạp, giúp khách hàng hoàn thành hiệu quả vòng khép kín triển khai từ mô hình đến chip.
Khi các ứng dụng AI chuyển từ phía huấn luyện sang phía suy luận và từ đám mây sang thiết bị đầu cuối, yêu cầu của ngành đối với nền tảng tính toán đang chuyển từ “hiệu năng đỉnh cao” sang năng lực tổng hợp “hiệu năng năng lượng cao, có thể sản xuất hàng loạt, dễ triển khai”. NPU khi triển khai theo quy mô ở thiết bị đầu cuối có ưu thế đáng kể về chi phí và mức tiêu thụ điện năng.
Ni YaYu cho biết, Guokekey sẽ tiếp tục kiên trì đổi mới phối hợp giữa thuật toán và phần cứng, bám sát các nút thắt cốt lõi của suy luận mô hình lớn, không ngừng hoàn thiện hệ thống kiến trúc NPU, năng lực sản phẩm và chuỗi công cụ, thúc đẩy nền tảng tính toán thông minh ở thiết bị đầu cuối tiến hóa theo hướng hiệu năng cao hơn, tiêu thụ điện năng thấp hơn và khả thi về mặt kỹ thuật tốt hơn, đồng thời cung cấp cho khách hàng các giải pháp năng lực tính toán có tính cạnh tranh hơn.
Thông tin khổng lồ, phân tích chính xác—tất cả đều có trên ứng dụng Tài chính Sina