Nghiên cứu mới nhất của DGrid AI giải quyết một điểm yếu cốt lõi trong Đánh giá AI phi tập trung

DGrid AI giới thiệu một khung đánh giá Chứng minh Chất lượng mới nhằm đánh giá các kết quả AI và cải thiện phân phối phần thưởng trên các mạng lưới phi tập trung.

Tóm tắt

  • Nghiên cứu PoQ mới của DGrid AI giới thiệu hệ thống chấm điểm không dựa vào tham chiếu để thưởng cho các nút AI mà không cần câu trả lời đúng.
  • DGrid đã huấn luyện các trọng tài AI chuyên biệt để đánh giá chất lượng đầu ra, nâng cao hệ thống thưởng AI phi tập trung quy mô lớn.
  • Các mô hình Chứng minh Chất lượng mới của DGrid AI giúp các mạng lưới AI phi tập trung đánh giá phản hồi chính xác mà không cần dữ liệu chân lý nền.

Các mạng lưới AI phi tập trung gặp vấn đề thanh toán mà các nhà nghiên cứu đã âm thầm giải quyết trong nhiều năm, và một bài báo gần đây từ DGrid AI đặt vấn đề này trực tiếp lên bàn. Các hệ thống chấm điểm chất lượng cung cấp phần thưởng cho các nút chủ yếu dựa vào việc có câu trả lời đúng để so sánh. Trong thực tế, câu trả lời đó hiếm khi tồn tại.

Bài báo, bài thứ tư trong chuỗi nghiên cứu liên tục của DGrid về Chứng minh Chất lượng (PoQ), đề xuất một phương pháp thay thế đã được huấn luyện và công bố các số liệu đằng sau nó. PoQ sử dụng các mô hình đánh giá nhỏ để chấm điểm chất lượng của từng đầu ra, và các điểm số này quyết định phần thưởng. Rẻ tiền, và có thể mở rộng.

DGrid xây dựng điều này từng bước một: một phiên bản nhận thức về chi phí tích hợp độ trễ vào tính toán phần thưởng, một lớp chống gian lận khi các người chấm trở thành kẻ nói dối hoặc lười biếng, và một khung phân chia “chất lượng” thành các phần có thể kiểm tra. Kỹ thuật vững chắc. Và mỗi lớp đều gặp phải cùng một bức tường.

Quá trình phát triển vấn đề chấm điểm

Cấu trúc cơ bản của một mạng lưới suy luận phi tập trung tạo ra một thách thức đo lường. Các nút độc lập chạy các mô hình ngôn ngữ và phản hồi các câu hỏi của người dùng. Những phản hồi đó cần được chấm điểm vì điểm số quyết định thanh toán. Xác minh mã hóa của mọi tính toán sẽ cực kỳ an toàn về mặt kỹ thuật nhưng lại quá đắt đỏ khi mở rộng, vì vậy con đường thực tế là đánh giá chất lượng tự động bằng các mô hình nhỏ hơn.

Công trình trước của DGrid đã xây dựng phương pháp này từng bước, thêm các khoản thanh toán điều chỉnh theo độ trễ, các biện pháp phòng thủ chống các người chấm gian lận, và phân tích chi tiết hơn về ý nghĩa của “chất lượng” trong bối cảnh chấm điểm. Điều mà họ chưa thể giải quyết hoàn toàn là tín hiệu đánh giá chính.

Tín hiệu mạnh nhất mà nhóm có là sự tương đồng về mặt ngữ nghĩa: so sánh đầu ra của mô hình với câu trả lời đúng đã biết và đo khoảng cách giữa chúng trong không gian nhúng. Điều này hoạt động trong các môi trường chuẩn mực nơi có câu trả lời tham chiếu. Nó không phù hợp trong mạng lưới trực tiếp, nơi người dùng đặt câu hỏi mở và không có chân lý nền chờ trong cơ sở dữ liệu.

Các phương pháp thay thế sẵn có thử nghiệm tệ hơn. Một bộ mã NLI cross-encoder, một loại mô hình đánh giá khả năng suy luận hợp lý giữa các câu, cho ra hệ số tương quan Pearson là −0.363 khi dùng để đánh giá chất lượng câu trả lời mà không có câu trả lời tham chiếu. Hệ số tương quan âm nghĩa là mô hình có xu hướng ưu tiên các phản hồi kém hơn các phản hồi tốt. Điều này không phải là một công cụ đánh giá khả dụng.

Những đề xuất của bài báo

Thay vì điều chỉnh các mô hình hiện có, các nhà nghiên cứu đã huấn luyện ba trọng tài đặc biệt cho việc chấm điểm chất lượng không dựa vào tham chiếu. Mỗi mô hình nhận đầu vào là câu hỏi và phản hồi, và xuất ra điểm từ 0 đến 10, không có câu trả lời đúng nào được cung cấp.

Ba mô hình khác nhau chủ yếu về kích thước và tốc độ:

  • TextCNN (~10 triệu tham số) chạy trong khoảng 1 mili giây mỗi lần gọi, phù hợp cho lọc sơ bộ với tốc độ cao.
  • MiniLM (22 triệu tham số) nằm ở mức trung bình, khoảng 13 mili giây.
  • DeBERTa (184 triệu tham số) mất khoảng 15 mili giây và tối ưu cho độ chính xác.

Việc huấn luyện theo quy trình hai giai đoạn. Các mô hình ban đầu được huấn luyện trước trên UltraFeedback, một bộ dữ liệu công khai gồm các phản hồi được đánh giá bởi GPT-4, rồi sau đó tinh chỉnh trên phân phối nhiệm vụ của mạng lưới. Mục đích là để các trọng tài có hiểu biết chung về chất lượng trước khi tập trung vào bối cảnh chấm điểm cụ thể.

Kết quả cốt lõi

Trên một bộ kiểm thử gồm 300 ví dụ, trọng tài DeBERTa đạt hệ số tương quan Pearson là 0.747 so với proxy chân thực — mà không cần truy cập câu trả lời tham chiếu nào. Các bộ đánh giá dựa vào tham chiếu từ khung trước, vốn có truy cập câu trả lời đúng, đạt tối đa 0.647.

Khoảng cách này có thể giải thích đơn giản. Các bộ đánh giá cũ dựa trên các chỉ số tương đồng đo khoảng cách cosine tới một nhúng tham chiếu. Các trọng tài mới được tối ưu toàn diện cho nhiệm vụ chấm điểm. Sự khác biệt về hiệu suất phản ánh rõ ràng điều này hơn là một đột phá kiến trúc.

Một lưu ý của các tác giả: chân lý nền được sử dụng ở đây cũng chỉ là một proxy — trùng lặp từ cấp token thay vì đánh giá của con người. Các trọng tài phù hợp tốt với chỉ số này, nhưng việc trùng lặp từ có phản ánh đáng tin cậy phản hồi chất lượng theo cách con người đánh giá hay không vẫn là một câu hỏi chưa rõ.

Hai tính năng hướng tới triển khai đi kèm các trọng tài. Một hệ thống phân luồng theo chuỗi, chuyển câu hỏi qua mô hình nhẹ trước rồi mới nâng cấp lên các mô hình nặng hơn khi điểm số còn mơ hồ, giúp giảm chi phí đánh giá lên tới 72.7% ở mức ngưỡng tối đa, mặc dù hệ số tương quan giảm xuống khoảng 0.51 trong cấu hình đó. Một cơ chế hiệu chỉnh trực tuyến, hoạt động mà không cần tinh chỉnh thủ công, liên tục xác định chất lượng ngữ nghĩa là tín hiệu chính và điều chỉnh trọng số phù hợp, tăng gấp 4.7 lần trọng số ban đầu theo thời gian.

Những điểm còn gặp khó khăn của hệ thống

Các trọng tài hoạt động không đều nhau tùy theo loại nhiệm vụ. Trong câu hỏi và trả lời, hệ số tương quan đạt 0.830. Trong tóm tắt, nó giảm xuống còn 0.199. Bài báo cho rằng điều này không phải do các trọng tài gặp vấn đề mà do chỉ số đánh giá sử dụng trong huấn luyện: trùng lặp từ thô sơ là một thước đo kém về chất lượng tóm tắt, vì vậy các mô hình huấn luyện theo đó học theo một tín hiệu yếu. Các tác giả mô tả đây là vấn đề mở chính chứ không phải là một hạn chế đã được quản lý âm thầm.

Cách trình bày này phù hợp với cách bài báo trình bày kết quả tổng thể — một cách có hệ thống, rõ ràng, với các trường hợp thất bại được nêu rõ như các cải tiến. Sau bốn bài trong chuỗi nghiên cứu này, công trình ít giống như một thông báo sản phẩm mà hơn như một nhóm đang dần khắc phục các khoảng trống trong thứ họ dự định thực sự triển khai.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim