Tether mở rộng dữ liệu huấn luyện của Open AI với việc phát hành Bộ dữ liệu QVAC Genesis II


Khám phá các tin tức và sự kiện fintech hàng đầu!

Đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các giám đốc điều hành tại JP Morgan, Coinbase, Blackrock, Klarna và nhiều tổ chức khác


Mở rộng lớn trong Dữ liệu Đào tạo AI Mở

Tether Data đã phát hành một phiên bản mới của bộ dữ liệu giáo dục tổng hợp dành cho trí tuệ nhân tạo, tăng đáng kể khối lượng và phạm vi tài liệu đào tạo mở có sẵn cho các nhà nghiên cứu trên toàn thế giới. Bộ phận nghiên cứu AI của công ty, QVAC, đã công bố rằng phiên bản mới, gọi là QVAC Genesis II, bổ sung 107 tỷ token vào bộ dữ liệu trước đó, nâng tổng kích thước lên 148 tỷ token.

Bộ dữ liệu mở rộng này hiện là nguồn tài nguyên giáo dục tổng hợp lớn nhất công khai, được thiết kế đặc biệt cho việc đào tạo trước AI. Nó bao gồm 19 lĩnh vực học thuật và nhằm nâng cao khả năng các mô hình học lý luận, giải thích và ra quyết định thay vì chỉ nhận diện các mẫu bề mặt.

Thông báo này định vị việc phát hành như một bước tiến hướng tới phát triển AI minh bạch và dễ tiếp cận hơn, trong bối cảnh nhiều bộ dữ liệu đào tạo tiên tiến vẫn bị khóa trong các hệ thống sở hữu.

Xây dựng dựa trên Phiên bản Genesis I

QVAC Genesis II phát triển dựa trên công trình lần đầu giới thiệu với Genesis I, tập trung vào việc tạo ra bộ dữ liệu tổng hợp đã được xác thực, hướng đến giáo dục, bao gồm các môn khoa học, công nghệ, kỹ thuật và toán học cốt lõi. Phiên bản này đã thiết lập một khung để tạo ra các câu hỏi đào tạo có cấu trúc nhằm nâng cao độ chính xác của lý luận.

Phiên bản mới mở rộng phạm vi sang mười lĩnh vực bổ sung, gồm hóa học, khoa học máy tính, thống kê, học máy, thiên văn học, địa lý, kinh tế lượng và kỹ thuật điện. Nó cũng xem xét lại nội dung vật lý cấp đại học, được tái tạo bằng phương pháp cập nhật nhằm nâng cao sự rõ ràng về khái niệm.

Hai phiên bản này cùng nhau tạo thành bộ dữ liệu giáo dục tổng hợp lớn nhất từng được công khai, theo mô tả của QVAC. Bộ dữ liệu này nhằm phục vụ cho việc tiền huấn luyện các mô hình ngôn ngữ lớn và các hệ thống AI khác cần tài liệu học thuật có cấu trúc.

Sự thay đổi trong phương pháp tạo dữ liệu đào tạo

Ở trung tâm của Genesis II là phương pháp tạo dữ liệu mới gọi là Option-Level Reasoning (Lý luận Cấp Tùy chọn). Phương pháp này khác biệt so với nhiều kỹ thuật tổng hợp dữ liệu hiện có bằng cách không chỉ tập trung vào các câu trả lời sai, mà còn chú trọng vào các câu trả lời đúng.

Thay vì coi câu trả lời đúng là điểm kết thúc, phương pháp này phân tích từng lựa chọn trong câu hỏi trắc nghiệm. Các lựa chọn đúng được phân tích để củng cố lý do tại sao chúng đúng, còn các lựa chọn sai được xem xét để giải quyết các hiểu lầm phổ biến. Cấu trúc này giúp các mô hình học cách lý luận nguyên nhân và logic ra quyết định thay vì chỉ liên kết câu hỏi với kết quả.

Phương pháp này bổ sung cho Failures Analysis (Phân tích Thất bại) được giới thiệu trong Genesis I, tập trung khai thác giá trị từ lỗi của mô hình. Cả hai phương pháp tạo thành một quy trình, trong đó mỗi câu hỏi đều được thiết kế để mang lại giá trị hướng dẫn.

Các đánh giá độc lập do QVAC trích dẫn cho thấy các mô hình huấn luyện trên dữ liệu Genesis II thể hiện độ chính xác lý luận cao hơn và đưa ra các câu trả lời rõ ràng hơn so với các mô hình huấn luyện trên các bộ dữ liệu tổng hợp trước đó.

Nhấn mạnh vào Hiểu biết hơn là Lưu loát

Phần lớn hệ sinh thái đào tạo AI hiện nay dựa vào việc tập hợp khối lượng lớn văn bản, thường lấy từ các nguồn công cộng, để nâng cao khả năng ngôn ngữ. Mục tiêu của QVAC khác về trọng tâm. Các bộ dữ liệu Genesis được cấu trúc để dạy các mô hình cách lý luận qua các vấn đề và giải thích kết luận một cách rõ ràng.

Lãnh đạo công ty đã nhấn mạnh rằng mục tiêu là tiến xa hơn việc huấn luyện các hệ thống dự đoán chuỗi văn bản khả năng, hướng tới các mô hình thể hiện sự hiểu biết về các khái niệm nền tảng. Thiết kế bộ dữ liệu ưu tiên sự rõ ràng, nguyên nhân và logic, nhằm giảm thiểu mơ hồ trong các kết quả của mô hình.

Cách tiếp cận này phù hợp với các cuộc thảo luận rộng hơn trong nghiên cứu AI về độ tin cậy và khả năng giải thích, đặc biệt khi các hệ thống AI được sử dụng trong giáo dục, khoa học và hỗ trợ ra quyết định.

Truy cập mở cho các nhà nghiên cứu và nhà phát triển

Giống như bộ dữ liệu Genesis ban đầu, QVAC Genesis II được phát hành công khai. Bộ dữ liệu này có giấy phép Creative Commons Attribution–NonCommercial 4.0, cho phép các nhà nghiên cứu, các tổ chức giáo dục và các nhà phát triển độc lập sử dụng và nghiên cứu dữ liệu ngoài phạm vi thương mại.

Bộ dữ liệu và các mô hình liên quan được lưu trữ trên Hugging Face, kèm theo bài báo kỹ thuật chi tiết trình bày phương pháp tạo và kết quả đánh giá. Việc phân phối mở này nhằm giảm rào cản cho các nhà nghiên cứu không có quyền truy cập vào các bộ dữ liệu sở hữu lớn.

Bằng cách duy trì giấy phép phi thương mại, QVAC mong muốn hỗ trợ nghiên cứu học thuật và cộng đồng, đồng thời hạn chế khai thác thương mại trực tiếp.

Hỗ trợ phát triển AI phi tập trung

Việc phát hành này còn phù hợp với chiến lược rộng lớn hơn của Tether Data nhằm thúc đẩy phát triển AI phi tập trung. Công ty đã tuyên bố rằng dữ liệu đào tạo chất lượng cao không nên bị giới hạn cho các tổ chức có quyền truy cập hạ tầng đám mây tập trung.

Bằng cách công khai các bộ dữ liệu có cấu trúc quy mô lớn, QVAC mong muốn thúc đẩy đào tạo tại chỗ, thử nghiệm và triển khai các mô hình AI. Cách tiếp cận này nhằm hỗ trợ các môi trường nghiên cứu có hạn chế về tài nguyên tính toán nhưng vẫn cần đóng góp trí tuệ.

Sự nhấn mạnh vào phi tập trung phản ánh mối quan tâm ngày càng tăng về việc giảm phụ thuộc vào một số nền tảng AI thống trị và thúc đẩy hệ sinh thái nghiên cứu phân tán hơn.

Vai trò của Tether trong nghiên cứu AI

QVAC hoạt động như bộ phận nghiên cứu AI của Tether Data. Trong khi Tether nổi tiếng với các tài sản kỹ thuật số và stablecoins, công ty đã mở rộng hoạt động sang nghiên cứu dữ liệu và AI trong những năm gần đây.

Thông qua QVAC, Tether Data tập trung xây dựng hạ tầng và nguồn lực hỗ trợ nghiên cứu mở. Các bộ dữ liệu Genesis là một trong những sản phẩm nổi bật nhất của nỗ lực này, định vị công ty trong các cuộc thảo luận về phát triển AI mở và dữ liệu đào tạo tập trung vào giáo dục.

Công việc này cũng phản ánh sự giao thoa ngày càng lớn giữa các công ty fintech và nghiên cứu AI tiên tiến, khi các công ty công nghệ tài chính ngày càng đầu tư vào khoa học dữ liệu và khả năng học máy.

Quan điểm của lãnh đạo về việc phát hành

Lãnh đạo công ty đã mô tả việc phát hành Genesis II như một bước đi xa hơn các phương pháp đào tạo chỉ tập trung vào khối lượng. Theo các tuyên bố của đội ngũ điều hành Tether, trọng tâm là dạy các hệ thống AI cách lý luận và giải thích thay vì chỉ tạo ra phản hồi lưu loát.

Paolo Ardoino, CEO của Tether, nhấn mạnh rằng AI đáng tin cậy cần dựa trên sự hiểu biết tại sao các câu trả lời đúng. Ông cho biết việc công khai bộ dữ liệu phản ánh niềm tin rằng AI mạnh mẽ, dễ giải thích sẽ mang lại lợi ích cho xã hội.

Những quan điểm này phản ánh mối lo ngại của các nhà nghiên cứu về hạn chế của các mô hình chủ yếu dựa trên văn bản không có cấu trúc.

Phạm vi giáo dục và phạm vi lĩnh vực

Bộ dữ liệu kết hợp Genesis I và II bao gồm 19 lĩnh vực, với nội dung phù hợp cấp trung học và đại học. Các chủ đề từ toán học, vật lý cơ bản đến các lĩnh vực ứng dụng như kinh tế lượng và học máy.

Mỗi lĩnh vực gồm các câu hỏi có cấu trúc, giải thích và lộ trình lý luận nhằm phản ánh cách các khái niệm được giảng dạy và đánh giá trong giáo dục chính quy. Thiết kế này nhằm hỗ trợ các nhiệm vụ tiền huấn luyện đòi hỏi tính nhất quán logic và chiều sâu khái niệm.

Bằng cách tái tạo và mở rộng nội dung bằng các phương pháp cải tiến, QVAC hướng tới hoàn thiện cách biểu diễn tài liệu giáo dục trong các bộ dữ liệu tổng hợp.

Đánh giá và hiệu suất mô hình

Theo các đánh giá nội bộ và độc lập do QVAC trích dẫn, các mô hình huấn luyện trên dữ liệu Genesis II thể hiện hiệu quả cao hơn trong các nhiệm vụ đòi hỏi lý luận nhiều. Các nhiệm vụ này bao gồm trả lời câu hỏi có cấu trúc, giải thích kết luận và tránh các phản hồi mơ hồ, mâu thuẫn.

Kết quả đánh giá cho thấy sự kết hợp của Failures Analysis và Option-Level Reasoning dẫn đến các đầu ra nhất quán hơn. Mặc dù chưa định vị bộ dữ liệu này như một giải pháp độc lập, nhưng nó được trình bày như một nền tảng mạnh mẽ để huấn luyện và tinh chỉnh thêm.

Các nhà nghiên cứu dự kiến sẽ thực hiện các đánh giá bổ sung khi bộ dữ liệu này được sử dụng rộng rãi hơn trong cộng đồng.

Ảnh hưởng đối với Nghiên cứu AI Mở

Việc phát hành một bộ dữ liệu mở lớn như vậy có thể ảnh hưởng đến cách các nhà nghiên cứu học thuật và độc lập tiếp cận việc huấn luyện mô hình. Quyền truy cập vào dữ liệu giáo dục có cấu trúc quy mô này thường bị giới hạn cho các tổ chức có nguồn lực tài chính mạnh.

Bằng cách cung cấp một lựa chọn thay thế, QVAC Genesis II có thể hỗ trợ thử nghiệm các mô hình nhỏ hơn, các nỗ lực huấn luyện tại chỗ và nghiên cứu về các phương pháp AI có thể giải thích.

Bộ dữ liệu này cũng có thể trở thành chuẩn mực cho các dự án dữ liệu tổng hợp trong tương lai, ưu tiên chất lượng lý luận hơn là quy mô.

Vị trí trong hệ sinh thái AI rộng lớn hơn

QVAC Genesis II tham gia vào một hệ sinh thái AI phát triển nhanh, với ngày càng nhiều nguồn lực tập trung. Nhiều mô hình có khả năng nhất được huấn luyện trên các bộ dữ liệu sở hữu, không thể truy cập để kiểm tra hoặc sao chép.

Các bộ dữ liệu mở như Genesis II cung cấp một điểm đối lập, thúc đẩy tính minh bạch và tiến bộ chung. Chúng cũng đặt ra câu hỏi về cách các nguồn mở có thể tồn tại song song với phát triển AI thương mại.

Sự tham gia của một công ty có nền tảng trong fintech và stablecoins làm nổi bật cách AI đang thu hút sự quan tâm của nhiều ngành ngoài công nghệ truyền thống.

Khả năng truy cập và các bước tiếp theo

Tài liệu kỹ thuật đầy đủ của bộ dữ liệu, có tiêu đề “QVAC Genesis II: Mở rộng Bộ dữ liệu Giáo dục Tổng hợp Đa lĩnh vực lớn nhất và Chất lượng cao nhất cho Đào tạo trước,” đã được đăng trên blog nghiên cứu của QVAC. Quyền truy cập vào bộ dữ liệu và các mô hình liên quan hiện có qua Hugging Face.

QVAC dự kiến tiếp tục hoàn thiện phương pháp và mở rộng phạm vi giáo dục trong các phiên bản sắp tới. Phản hồi từ cộng đồng nghiên cứu sẽ đóng vai trò trong việc định hình các phiên bản tiếp theo.

Tiếp tục thúc đẩy các nền tảng mở

Với Genesis II, QVAC khẳng định lại quan điểm rằng dữ liệu đào tạo mở, có cấu trúc là nền tảng thiết yếu để xây dựng hệ thống AI đáng tin cậy. Việc phát hành này phản ánh niềm tin rằng trí tuệ cần dựa trên lý luận và giải thích, chứ không chỉ dựa vào các mối liên hệ thống kê.

Khi các hệ thống AI ngày càng tích hợp trong giáo dục, khoa học và dịch vụ tài chính, đặc biệt là các ứng dụng fintech, chất lượng dữ liệu đào tạo của chúng sẽ vẫn là vấn đề trung tâm.

Hiện tại, bộ dữ liệu Genesis mở rộng là một đóng góp đáng chú ý cho nghiên cứu AI mở, cung cấp quy mô, cấu trúc và khả năng tiếp cận ở mức độ hiếm thấy ngoài các môi trường sở hữu.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.29KNgười nắm giữ:2
    0.07%
  • Vốn hóa:$2.29KNgười nắm giữ:2
    0.10%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:2
    0.00%
  • Ghim