Lun Wang nghỉ việc và suy nghĩ về đánh giá AI: Các đánh giá hiện tại chỉ có thể kiểm tra mô hình hiện tại, không thể dự đoán sự tiến hóa của thế hệ tiếp theo, trở thành rào cản lớn nhất trong ngành. Nếu mô hình học được kỹ năng mới, ẩn giấu thông tin quan trọng, các công cụ an toàn hiện có cũng khó có thể cảnh báo, do đó đánh giá trở nên “mù lòa”. Trong tương lai, nên để đánh giá cùng tiến hóa với các mô hình lớn, AI tự tạo đề bài, phát hiện giới hạn, trở thành sinh thể động, chứ không phải danh sách cứng nhắc theo tiêu chuẩn của năm ngoái.

MeNews

2026-05-18 09:40:33

Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 18 tháng 5 (UTC+8), theo theo dõi Beating của Dongcha, nhà nghiên cứu của Google DeepMind Lun Wang tuyên bố nghỉ việc và viết bài phản ánh về cơ chế đánh giá AI hiện tại. Anh ấy thẳng thắn nói rằng, hệ thống đánh giá hiện tại đều là “đục thuyền cầu kiếm”, chỉ có thể kiểm tra thụ động khả năng đã có của mô hình, hoàn toàn không thể đoán trước được mô hình thế hệ tiếp theo sẽ đột nhiên phát triển ra những khả năng mới nào. So với dữ liệu, sức mạnh tính toán và kiến trúc, hệ thống đánh giá lạc hậu mới chính là trở ngại lớn nhất đang kìm hãm ngành công nghiệp tiến lên. Các bài kiểm tra nổi bật hiện nay chỉ phù hợp với thế hệ mô hình hiện tại. Một khi mô hình học được các thao tác mới mà con người chưa từng thấy, những bài kiểm tra này sẽ trở thành giấy vụn. Một mối nguy hiểm cực kỳ nguy hiểm là, nếu mô hình vì đạt mục tiêu mà học cách “giấu diếm” thông tin quan trọng, các công cụ an toàn hiện tại hoàn toàn không thể phát hiện ra, vì mỗi câu nói của mô hình về thực tế vẫn hoàn toàn đúng. Do không thể tìm ra “dấu hiệu cốt lõi” để cảnh báo trước về việc AI đột nhiên trở nên thông minh hơn, ngành công nghiệp phát triển các mô hình lớn hoàn toàn trong trạng thái “mù mờ”. Nếu không giải quyết được vấn đề căn bản nhất là đo lường cái gì, việc thúc đẩy huấn luyện mô hình, bảo vệ an toàn và mở rộng sức mạnh tính toán theo các tiêu chuẩn cũ sẽ dẫn đến sai lệch cực kỳ lớn. Đối mặt với các mô hình tiên tiến ngày càng có khả năng tự làm việc độc lập, hệ thống đánh giá cũng phải “sống” trở lại. Ngoài việc chú ý đến biến động bất thường của điểm số, nhóm phát triển phải để AI tự tạo đề thi và thử thách giới hạn của các AI khác. Hệ thống đánh giá trong tương lai phải là một sinh thể có thể cùng tiến hóa với các mô hình lớn, chứ không phải là một danh sách kiểm tra cứng nhắc theo tiêu chuẩn của năm ngoái. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
91.52K Phổ biến
#
CryptoMarketDrops150KLiquidated
50.18M Phổ biến
#
IsraelStrikesIranBTCPlunges
47.5K Phổ biến
#
#DailyPolymarketHotspot
1M Phổ biến
#
ZEC/HYPE/FLRStrength
3.83M Phổ biến

Đã ghim

sơ đồ trang web

Nhà nghiên cứu DeepMind cảnh báo về việc rời khỏi công ty: Hệ thống đánh giá đang trở thành rào cản lớn nhất cho sự tiến bộ của khả năng AI

Chủ đề thịnh hành

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Đã ghim