Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
CFD
Phái sinh CFD cổ phiếu Hoa Kỳ
Cổ phiếu Hoa Kỳ
Tiếp cận cổ phiếu và quỹ ETF thực của Hoa Kỳ
Cổ phiếu Hongkong
Giao dịch cổ phiếu chất lượng được niêm yết tại Hongkong
Futures cổ phiếu
Đòn bẩy cao, giao dịch 24/7
Cổ phiếu token hóa
Được hỗ trợ bởi tài sản cổ phiếu thực
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
GUSD
Đúc GUSD để nhận lợi suất từ RWA kho bạc
Hoạt động cổ phiếu
Giao dịch cổ phiếu phổ biến và nhận airdrop hấp dẫn
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
Nghiên cứu mới nhất của DGrid AI giải quyết một điểm yếu cốt lõi trong Đánh giá AI phi tập trung
DGrid AI giới thiệu một khung đánh giá Chứng minh Chất lượng mới nhằm đánh giá các kết quả AI và cải thiện phân phối phần thưởng trên các mạng lưới phi tập trung.
Tóm tắt
Các mạng lưới AI phi tập trung gặp vấn đề thanh toán mà các nhà nghiên cứu đã âm thầm giải quyết trong nhiều năm, và một bài báo gần đây từ DGrid AI đặt vấn đề này trực tiếp lên bàn. Các hệ thống chấm điểm chất lượng cung cấp phần thưởng cho các nút chủ yếu dựa vào việc có câu trả lời đúng để so sánh. Trong thực tế, câu trả lời đó hiếm khi tồn tại.
Bài báo, bài thứ tư trong chuỗi nghiên cứu liên tục của DGrid về Chứng minh Chất lượng (PoQ), đề xuất một phương pháp thay thế đã được huấn luyện và công bố các số liệu đằng sau nó. PoQ sử dụng các mô hình đánh giá nhỏ để chấm điểm chất lượng của từng đầu ra, và các điểm số này quyết định phần thưởng. Rẻ tiền, và có thể mở rộng.
DGrid xây dựng điều này từng bước một: một phiên bản nhận thức về chi phí tích hợp độ trễ vào tính toán phần thưởng, một lớp chống gian lận khi các người chấm trở thành kẻ nói dối hoặc lười biếng, và một khung phân chia “chất lượng” thành các phần có thể kiểm tra. Kỹ thuật vững chắc. Và mỗi lớp đều gặp phải cùng một bức tường.
Quá trình phát triển vấn đề chấm điểm
Cấu trúc cơ bản của một mạng lưới suy luận phi tập trung tạo ra một thách thức đo lường. Các nút độc lập chạy các mô hình ngôn ngữ và phản hồi các câu hỏi của người dùng. Những phản hồi đó cần được chấm điểm vì điểm số quyết định thanh toán. Xác minh mã hóa của mọi tính toán sẽ cực kỳ an toàn về mặt kỹ thuật nhưng lại quá đắt đỏ khi mở rộng, vì vậy con đường thực tế là đánh giá chất lượng tự động bằng các mô hình nhỏ hơn.
Công trình trước của DGrid đã xây dựng phương pháp này từng bước, thêm các khoản thanh toán điều chỉnh theo độ trễ, các biện pháp phòng thủ chống các người chấm gian lận, và phân tích chi tiết hơn về ý nghĩa của “chất lượng” trong bối cảnh chấm điểm. Điều mà họ chưa thể giải quyết hoàn toàn là tín hiệu đánh giá chính.
Tín hiệu mạnh nhất mà nhóm có là sự tương đồng về mặt ngữ nghĩa: so sánh đầu ra của mô hình với câu trả lời đúng đã biết và đo khoảng cách giữa chúng trong không gian nhúng. Điều này hoạt động trong các môi trường chuẩn mực nơi có câu trả lời tham chiếu. Nó không phù hợp trong mạng lưới trực tiếp, nơi người dùng đặt câu hỏi mở và không có chân lý nền chờ trong cơ sở dữ liệu.
Các phương pháp thay thế sẵn có thử nghiệm tệ hơn. Một bộ mã NLI cross-encoder, một loại mô hình đánh giá khả năng suy luận hợp lý giữa các câu, cho ra hệ số tương quan Pearson là −0.363 khi dùng để đánh giá chất lượng câu trả lời mà không có câu trả lời tham chiếu. Hệ số tương quan âm nghĩa là mô hình có xu hướng ưu tiên các phản hồi kém hơn các phản hồi tốt. Điều này không phải là một công cụ đánh giá khả dụng.
Những đề xuất của bài báo
Thay vì điều chỉnh các mô hình hiện có, các nhà nghiên cứu đã huấn luyện ba trọng tài đặc biệt cho việc chấm điểm chất lượng không dựa vào tham chiếu. Mỗi mô hình nhận đầu vào là câu hỏi và phản hồi, và xuất ra điểm từ 0 đến 10, không có câu trả lời đúng nào được cung cấp.
Ba mô hình khác nhau chủ yếu về kích thước và tốc độ:
Việc huấn luyện theo quy trình hai giai đoạn. Các mô hình ban đầu được huấn luyện trước trên UltraFeedback, một bộ dữ liệu công khai gồm các phản hồi được đánh giá bởi GPT-4, rồi sau đó tinh chỉnh trên phân phối nhiệm vụ của mạng lưới. Mục đích là để các trọng tài có hiểu biết chung về chất lượng trước khi tập trung vào bối cảnh chấm điểm cụ thể.
Kết quả cốt lõi
Trên một bộ kiểm thử gồm 300 ví dụ, trọng tài DeBERTa đạt hệ số tương quan Pearson là 0.747 so với proxy chân thực — mà không cần truy cập câu trả lời tham chiếu nào. Các bộ đánh giá dựa vào tham chiếu từ khung trước, vốn có truy cập câu trả lời đúng, đạt tối đa 0.647.
Khoảng cách này có thể giải thích đơn giản. Các bộ đánh giá cũ dựa trên các chỉ số tương đồng đo khoảng cách cosine tới một nhúng tham chiếu. Các trọng tài mới được tối ưu toàn diện cho nhiệm vụ chấm điểm. Sự khác biệt về hiệu suất phản ánh rõ ràng điều này hơn là một đột phá kiến trúc.
Một lưu ý của các tác giả: chân lý nền được sử dụng ở đây cũng chỉ là một proxy — trùng lặp từ cấp token thay vì đánh giá của con người. Các trọng tài phù hợp tốt với chỉ số này, nhưng việc trùng lặp từ có phản ánh đáng tin cậy phản hồi chất lượng theo cách con người đánh giá hay không vẫn là một câu hỏi chưa rõ.
Hai tính năng hướng tới triển khai đi kèm các trọng tài. Một hệ thống phân luồng theo chuỗi, chuyển câu hỏi qua mô hình nhẹ trước rồi mới nâng cấp lên các mô hình nặng hơn khi điểm số còn mơ hồ, giúp giảm chi phí đánh giá lên tới 72.7% ở mức ngưỡng tối đa, mặc dù hệ số tương quan giảm xuống khoảng 0.51 trong cấu hình đó. Một cơ chế hiệu chỉnh trực tuyến, hoạt động mà không cần tinh chỉnh thủ công, liên tục xác định chất lượng ngữ nghĩa là tín hiệu chính và điều chỉnh trọng số phù hợp, tăng gấp 4.7 lần trọng số ban đầu theo thời gian.
Những điểm còn gặp khó khăn của hệ thống
Các trọng tài hoạt động không đều nhau tùy theo loại nhiệm vụ. Trong câu hỏi và trả lời, hệ số tương quan đạt 0.830. Trong tóm tắt, nó giảm xuống còn 0.199. Bài báo cho rằng điều này không phải do các trọng tài gặp vấn đề mà do chỉ số đánh giá sử dụng trong huấn luyện: trùng lặp từ thô sơ là một thước đo kém về chất lượng tóm tắt, vì vậy các mô hình huấn luyện theo đó học theo một tín hiệu yếu. Các tác giả mô tả đây là vấn đề mở chính chứ không phải là một hạn chế đã được quản lý âm thầm.
Cách trình bày này phù hợp với cách bài báo trình bày kết quả tổng thể — một cách có hệ thống, rõ ràng, với các trường hợp thất bại được nêu rõ như các cải tiến. Sau bốn bài trong chuỗi nghiên cứu này, công trình ít giống như một thông báo sản phẩm mà hơn như một nhóm đang dần khắc phục các khoảng trống trong thứ họ dự định thực sự triển khai.