Dương Thực Lâm GTC 2026 Bài phát biểu: Tiết lộ lộ trình công nghệ Kimi, Thảo luận về "Chai lọ Scaling"

MaticHoleFiller · 2026-03-20T11:45:24+00:00

Tại hội thảo GTC 2026 của Nvidia, người sáng lập Kimi Dương Thực Lâm nhấn mạnh rằng những bước đột phá trong trí thông minh của các mô hình lớn cần tái cấu trúc các công nghệ cơ bản, chẳng hạn như trình tối ưu hóa và cơ chế chú ý. Sự phát triển của Kimi K2.5 tập trung vào ba khía cạnh: hiệu quả Token, ngữ cảnh dài và cụm đại lý thông minh, tận dụng trình tối ưu hóa mới và kiến trúc chú ý để nâng cao hiệu suất, đạt được mức độ trí thông minh cao hơn và thúc đẩy đổi mới mã nguồn mở.

MaticHoleFiller

2026-03-20 11:45:24

Đang tạo bản tóm tắt

Tin tức của Sina Tech sáng ngày 18 tháng 3, tại hội nghị GTC của Nvidia năm 2026, người sáng lập Kimi, Yang Zhilin, đã chia sẻ rằng để thúc đẩy giới hạn trí thông minh của các mô hình lớn liên tục tiến xa hơn, cần phải tái cấu trúc các nền tảng cơ bản như bộ tối ưu hóa, cơ chế chú ý và kết nối dư thừa.

Sau khi chính thức ra mắt Kimi K2.5 vào cuối tháng 1 năm nay, Yang Zhilin lần đầu tiên trình bày một cách hệ thống lộ trình công nghệ đằng sau mô hình này trong bài phát biểu của mình. Ông tóm tắt quá trình tiến hóa của Kimi thành sự cộng hưởng của ba chiều: hiệu quả Token, ngữ cảnh dài và tập hợp các tác nhân (Agent Swarms). Theo Yang Zhilin, quy mô hiện tại không còn đơn thuần là tích tụ tài nguyên, mà phải cùng lúc tìm kiếm hiệu quả tính toán, bộ nhớ dài hạn và hợp tác tự động để đạt hiệu ứng quy mô. Nếu có thể nhân các lợi ích công nghệ của ba chiều này, mô hình sẽ thể hiện trí thông minh vượt xa hiện tại.

Việc tái cấu trúc công nghệ là trọng tâm của bài phát biểu này. Yang Zhilin đề xuất rằng nhiều tiêu chuẩn công nghệ phổ biến hiện nay về bản chất là sản phẩm của tám chín năm trước, đang dần trở thành giới hạn của quy mô.

Kể từ năm 2014, bộ tối ưu Adam luôn được xem là tiêu chuẩn ngành, nhưng trong huấn luyện quy mô siêu lớn, việc tìm kiếm các phương án thay thế hiệu quả Token cao hơn đã trở thành xu hướng. Nhóm Kimi đã xác nhận trong các thử nghiệm rằng bộ tối ưu Muon có tiềm năng rõ rệt trong việc nâng cao hiệu quả Token, nhưng khi mở rộng quy mô huấn luyện mô hình K2 lên hàng nghìn tỷ tham số, họ gặp phải vấn đề ổn định do Logits bùng nổ gây ra sự phân kỳ của mô hình. Để giải quyết, nhóm đã phát triển và mở mã nguồn bộ tối ưu MuonClip, sử dụng phương pháp lặp Newton-Schulz kết hợp cơ chế QK-Clip, vừa hoàn toàn giải quyết vấn đề Logits bùng nổ, vừa đạt hiệu quả tính toán gấp đôi so với AdamW truyền thống.

Về cơ chế chú ý toàn phần (Full Attention) ra đời từ năm 2017, Yang Zhilin trình bày về Kimi Linear dựa trên kiến trúc KDA. Đây là một kiến trúc chú ý tuyến tính lai, thách thức quy tắc “mọi lớp đều phải dùng chú ý toàn phần”, bằng cách tối ưu quản lý lưu trữ đệ quy, trong các ngữ cảnh dài tới 128K hoặc thậm chí 1 triệu, tốc độ giải mã đã tăng gấp 5 đến 6 lần, đồng thời duy trì hiệu suất xuất sắc trong các kịch bản có độ dài khác nhau.

Ngoài ra, đối với kết nối dư thừa đã tồn tại hơn mười năm, Kimi đã giới thiệu giải pháp Attention Residuals, thay thế phép cộng cố định truyền thống bằng chú ý Softmax trên đầu ra của các lớp trước, giải quyết vấn đề trạng thái ẩn tăng không giới hạn theo chiều sâu, làm giảm đóng góp của các lớp sâu hơn. Nhờ đó, mỗi lớp có thể chọn lọc hợp nhất thông tin dựa trên nội dung đầu vào. Công trình này đã khiến cựu đồng sáng lập OpenAI, Karpathy, suy nghĩ lại và thẳng thắn nhận xét rằng chúng ta vẫn chưa hiểu đủ về bài báo Transformer gốc “Attention is All You Need”. Elon Musk, sáng lập xAI, cũng bình luận rằng công trình của Kimi rất ấn tượng.

Trong lĩnh vực nghiên cứu đa mô thức, Yang Zhilin chia sẻ một quan sát quan trọng: trong huấn luyện liên kết hình ảnh và văn bản nguyên bản, học tăng cường thị giác (Vision RL) có thể cải thiện rõ rệt hiệu suất của văn bản. Các thử nghiệm loại bỏ cho thấy, sau khi huấn luyện bằng Vision RL, mô hình đã nâng cao khoảng 2.1% trên các bài kiểm tra chuẩn như MMLU-Pro và GPQA-Diamond, cho thấy khả năng suy luận không gian và logic hình ảnh có thể chuyển hóa thành năng lực nhận thức chung sâu hơn.

Cuối bài phát biểu, Yang Zhilin đi sâu vào mở rộng tập hợp các tác nhân. Ông cho rằng hình thái trí tuệ trong tương lai sẽ tiến hóa từ đơn lẻ sang các tập hợp động được tạo ra theo thời gian. Cơ chế Orchestrator của Kimi K2.5 cho phép phân chia các nhiệm vụ phức tạp dài thành hàng chục tác nhân con xử lý song song. Để tránh phụ thuộc đơn điểm gây ra “ sụp đổ theo chuỗi” trong quá trình hợp tác, nhóm đã thiết kế một hàm thưởng RL song song hoàn toàn mới, khuyến khích mô hình thực sự học cách phân chia nhiệm vụ và thực thi song song.

Trong phần tổng kết, Yang Zhilin đề cập đến sự chuyển đổi trong phương pháp nghiên cứu AI. Ông nói rằng, cách đây mười năm, các nghiên cứu thường tập trung hơn vào việc công bố các ý tưởng mới, nhưng do hạn chế về tài nguyên tính toán, rất khó để xác minh các ý tưởng này qua các thử nghiệm quy mô khác nhau. Hiện nay, với đủ nguồn lực và “Thang đo Phóng To (Scaling Ladder)”, các nhà nghiên cứu có thể tiến hành các thử nghiệm quy mô nghiêm ngặt hơn, từ đó rút ra các kết luận tự tin và đáng tin cậy hơn. Đây chính là lý do tại sao Kimi có thể khai thác các công nghệ “cổ xưa” để đạt được những đột phá mới. Kimi sẽ tiếp tục theo đuổi con đường mở mã nguồn, đóng góp các sáng tạo nền tảng như MuonClip, Kimi Linear và Attention Residuals cho cộng đồng mã nguồn mở, xây dựng các mô hình mạnh mẽ hơn, thúc đẩy công nghệ trí tuệ nhân tạo phổ cập. (Văn Mẫn)

KDA-4,23%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.