Tether mở rộng dữ liệu huấn luyện của Open AI với việc phát hành Bộ dữ liệu QVAC Genesis II


Khám phá các tin tức và sự kiện fintech hàng đầu!

Đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các lãnh đạo tại JP Morgan, Coinbase, Blackrock, Klarna và hơn thế nữa


Mở rộng lớn trong dữ liệu huấn luyện Open AI

Tether Data đã phát hành một phiên bản mới của bộ dữ liệu giáo dục tổng hợp dành cho trí tuệ nhân tạo, tăng đáng kể khối lượng và phạm vi của tài liệu huấn luyện mở cho phép sẵn cho các nhà nghiên cứu trên toàn thế giới. Bộ phận nghiên cứu AI của công ty, QVAC, cho biết rằng bản phát hành mới, có tên QVAC Genesis II, bổ sung 107 tỷ token vào bộ dữ liệu trước đó, nâng tổng dung lượng lên 148 tỷ token.

Bộ dữ liệu được mở rộng hiện là nguồn tài nguyên giáo dục tổng hợp công khai lớn nhất được thiết kế riêng cho AI tiền huấn luyện. Nó bao phủ 19 lĩnh vực học thuật và nhằm cải thiện cách các mô hình học lập luận, giải thích và ra quyết định, thay vì nhận diện mẫu ở bề mặt.

Thông báo này định vị bản phát hành như một bước tiến hướng tới việc phát triển AI minh bạch và dễ tiếp cận hơn, trong bối cảnh nhiều bộ dữ liệu huấn luyện tiên tiến vẫn bị khóa trong các hệ thống độc quyền.

Xây dựng trên bản Genesis phát hành đầu tiên

QVAC Genesis II được phát triển dựa trên công việc lần đầu được giới thiệu với Genesis I, tập trung vào việc tạo ra một bộ dữ liệu tổng hợp đã được xác thực, lấy giáo dục làm trọng tâm, bao phủ các môn học cốt lõi về khoa học, công nghệ, kỹ thuật và toán học. Bản phát hành trước đó đã thiết lập một khuôn khổ để tạo ra các câu hỏi huấn luyện có cấu trúc nhằm cải thiện độ chính xác suy luận.

Bản phát hành mới mở rộng phạm vi sang mười lĩnh vực bổ sung, bao gồm hóa học, khoa học máy tính, thống kê, học máy, thiên văn học, địa lý, kinh tế lượng và kỹ thuật điện. Nó cũng xem xét lại nội dung vật lý ở bậc đại học, tái tạo lại bằng một phương pháp luận được cập nhật nhằm cải thiện mức độ rõ ràng về khái niệm.

Cùng với nhau, hai bản phát hành này tạo thành, theo mô tả của QVAC, bộ dữ liệu giáo dục tổng hợp toàn diện nhất từng được đưa ra cho công chúng. Bộ dữ liệu nhằm được sử dụng cho tiền huấn luyện các mô hình ngôn ngữ lớn và các hệ thống AI khác cần tài liệu học thuật có cấu trúc.

Thay đổi trong cách tạo dữ liệu huấn luyện

Cốt lõi của Genesis II là một phương pháp tạo dữ liệu mới được gọi là Option-Level Reasoning (Suy luận theo từng lựa chọn). Cách tiếp cận này khác với nhiều kỹ thuật dữ liệu tổng hợp hiện có ở chỗ nó không chỉ tập trung vào các câu trả lời sai, mà còn vào các câu trả lời đúng.

Thay vì coi phản hồi đúng là điểm kết thúc của quy trình, phương pháp này phân tích mọi lựa chọn câu trả lời trong một câu hỏi trắc nghiệm nhiều lựa chọn. Các lựa chọn đúng được phân rã để củng cố lý do vì sao chúng đúng, trong khi các lựa chọn sai được xem xét để giải quyết các hiểu lầm phổ biến. Cấu trúc này cho phép các mô hình học suy luận nhân quả và logic ra quyết định thay vì chỉ đơn giản là liên kết câu hỏi với kết quả.

Cách tiếp cận này bổ sung cho phương pháp Failure Analysis (Phân tích thất bại) được giới thiệu trong Genesis I, vốn tập trung vào việc rút ra giá trị từ các lỗi của mô hình. Kết hợp lại, hai phương pháp này tạo thành một đường ống (pipeline) trong đó mỗi câu hỏi được tạo ra đều được thiết kế để đóng góp giá trị hướng dẫn.

Các đánh giá độc lập do QVAC dẫn lại cho thấy các mô hình được huấn luyện trên dữ liệu Genesis II thể hiện độ chính xác suy luận cao hơn và tạo ra các câu trả lời rõ ràng hơn so với các mô hình được huấn luyện trên các bộ dữ liệu tổng hợp trước đó.

Nhấn mạnh sự hiểu biết hơn là lưu loát

Phần lớn hệ sinh thái huấn luyện AI hiện tại dựa vào việc lắp ghép các lượng rất lớn văn bản, thường được trích xuất từ các nguồn công khai, để cải thiện độ lưu loát ngôn ngữ. Mục tiêu được QVAC công bố có trọng tâm khác biệt. Các bộ dữ liệu Genesis được cấu trúc để dạy các mô hình cách suy luận thông qua vấn đề và giải thích kết luận theo một cách rõ ràng.

Ban lãnh đạo công ty đã cho biết ý định là đi xa hơn các hệ thống huấn luyện chỉ dự đoán chuỗi văn bản có khả năng cao, hướng tới các mô hình thể hiện sự hiểu biết về các khái niệm nền tảng. Thiết kế của bộ dữ liệu ưu tiên tính rõ ràng, tính nhân quả và logic, nhằm giảm sự mơ hồ trong đầu ra của mô hình.

Cách tiếp cận này phù hợp với các thảo luận rộng hơn trong nghiên cứu AI về độ tin cậy và khả năng giải thích, đặc biệt khi các hệ thống AI được dùng trong bối cảnh giáo dục, khoa học và hỗ trợ ra quyết định.

Mở truy cập cho nhà nghiên cứu và nhà phát triển

Tương tự như bộ dữ liệu Genesis ban đầu, QVAC Genesis II cũng được phát hành công khai. Bộ dữ liệu có sẵn theo giấy phép Creative Commons Attribution–NonCommercial 4.0, cho phép các nhà nghiên cứu, các tổ chức học thuật và các nhà phát triển độc lập sử dụng và nghiên cứu dữ liệu bên ngoài các bối cảnh thương mại.

Bộ dữ liệu và các mô hình liên quan được lưu trữ trên Hugging Face, cùng với một bài nghiên cứu kỹ thuật chi tiết nêu rõ phương pháp tạo dữ liệu và kết quả đánh giá. Việc phân phối mở này nhằm hạ thấp rào cản cho các nhà nghiên cứu không có quyền truy cập vào các bộ dữ liệu độc quyền quy mô lớn.

Bằng cách duy trì giấy phép phi thương mại, QVAC hướng tới việc hỗ trợ nghiên cứu học thuật và do cộng đồng dẫn dắt, đồng thời hạn chế việc khai thác thương mại trực tiếp.

Hỗ trợ phát triển AI phi tập trung

Bản phát hành cũng nằm trong một chiến lược rộng hơn mà Tether Data theo đuổi nhằm khuyến khích phát triển AI phi tập trung. Công ty đã cho biết dữ liệu huấn luyện chất lượng cao không nên bị giới hạn cho các tổ chức có quyền truy cập vào hạ tầng đám mây tập trung.

Bằng việc đưa ra công khai các bộ dữ liệu có cấu trúc quy mô lớn, QVAC tìm cách cho phép huấn luyện tại chỗ, thử nghiệm và triển khai các mô hình AI. Cách tiếp cận này nhằm hỗ trợ các môi trường nghiên cứu nơi tài nguyên tính toán có thể bị hạn chế nhưng các đóng góp trí tuệ vẫn mang ý nghĩa lớn.

Trọng tâm vào phi tập trung phản ánh sự quan tâm ngày càng tăng trong việc giảm phụ thuộc vào một số ít nền tảng AI thống trị và thúc đẩy một hệ sinh thái nghiên cứu phân tán hơn.

Vai trò của Tether trong nghiên cứu AI

QVAC vận hành như bộ phận nghiên cứu AI của Tether Data. Mặc dù Tether được biết đến rộng rãi nhờ vai trò của mình trong tài sản kỹ thuật số và stablecoins, trong những năm gần đây công ty đã mở rộng hoạt động sang nghiên cứu dữ liệu và AI.

Thông qua QVAC, Tether Data tập trung xây dựng hạ tầng và các nguồn lực hỗ trợ nghiên cứu mở. Các bộ dữ liệu Genesis là một trong những đầu ra dễ thấy nhất của nỗ lực đó, định vị công ty trong các cuộc thảo luận về phát triển Open AI và dữ liệu huấn luyện hướng tới giáo dục.

Công việc này cũng phản ánh sự giao thoa ngày càng tăng giữa các công ty fintech và nghiên cứu AI tiên tiến, khi các doanh nghiệp công nghệ tài chính ngày càng đầu tư vào năng lực khoa học dữ liệu và học máy.

Góc nhìn của lãnh đạo về bản phát hành

Ban lãnh đạo công ty đã định khung việc phát hành Genesis II như một bước đi tránh xa các phương pháp huấn luyện ưu tiên chỉ khối lượng. Theo các tuyên bố từ đội ngũ điều hành của Tether, trọng tâm là dạy các hệ thống AI suy luận và giải thích thay vì chỉ đơn thuần tạo ra các phản hồi trôi chảy.

Paolo Ardoino, giám đốc điều hành của Tether, đã nhấn mạnh rằng AI đáng tin cậy cần được dựa trên việc hiểu vì sao câu trả lời đúng. Ông cũng cho biết việc đưa bộ dữ liệu ra công khai phản ánh niềm tin rằng AI mạnh hơn, dễ giải thích hơn sẽ mang lại lợi ích cho toàn xã hội.

Những quan điểm này vang vọng những lo ngại mà các nhà nghiên cứu nêu ra về các hạn chế của các mô hình được huấn luyện chủ yếu trên văn bản phi cấu trúc.

Phạm vi giáo dục và bao phủ theo lĩnh vực

Hai bộ dữ liệu Genesis I và II kết hợp bao phủ 19 lĩnh vực, với nội dung được thiết kế ở mức độ giáo dục trung học và đại học. Các môn học trải từ những nền tảng như toán học và vật lý cho đến các lĩnh vực ứng dụng như kinh tế lượng và học máy.

Mỗi lĩnh vực đều bao gồm các câu hỏi có cấu trúc, các phần giải thích và các lộ trình suy luận nhằm mô phỏng cách các khái niệm được dạy và đánh giá trong bối cảnh giáo dục chính quy. Thiết kế này nhằm hỗ trợ các nhiệm vụ tiền huấn luyện cần tính nhất quán logic và chiều sâu khái niệm.

Bằng việc tái tạo và mở rộng nội dung bằng các phương pháp cải tiến, QVAC hướng tới việc tinh chỉnh cách tài liệu giáo dục được thể hiện trong các bộ dữ liệu tổng hợp.

Đánh giá và hiệu suất mô hình

Theo các đánh giá nội bộ và độc lập được QVAC dẫn chiếu, các mô hình được huấn luyện trên dữ liệu Genesis II cho thấy hiệu suất được cải thiện trong các tác vụ nặng về suy luận. Chúng bao gồm trả lời các câu hỏi có cấu trúc, giải thích các kết luận và tránh các phản hồi mơ hồ hoặc mâu thuẫn.

Kết quả đánh giá cho thấy sự kết hợp giữa Failure Analysis và Option-Level Reasoning dẫn đến các đầu ra nhất quán hơn. Mặc dù công ty chưa định vị bộ dữ liệu như một giải pháp độc lập, họ đã trình bày nó như một nền tảng vững chắc cho việc huấn luyện tiếp theo và tinh chỉnh (fine-tuning).

Các nhà nghiên cứu được kỳ vọng sẽ tiến hành thêm các đánh giá khi bộ dữ liệu được sử dụng rộng rãi hơn trong cộng đồng.

Hàm ý cho nghiên cứu Open AI

Việc phát hành một bộ dữ liệu lớn và mở như vậy có thể ảnh hưởng đến cách các nhà nghiên cứu học thuật và độc lập tiếp cận việc huấn luyện mô hình. Truy cập vào dữ liệu giáo dục có cấu trúc ở quy mô này trước đây thường bị giới hạn cho các tổ chức được tài trợ tốt.

Bằng cách cung cấp một lựa chọn thay thế, QVAC Genesis II có thể hỗ trợ thử nghiệm với các mô hình nhỏ hơn, các nỗ lực huấn luyện cục bộ và nghiên cứu về các phương pháp AI có thể giải thích.

Bộ dữ liệu cũng có thể đóng vai trò như một chuẩn tham chiếu cho các dự án dữ liệu tổng hợp trong tương lai, ưu tiên chất lượng suy luận hơn là chỉ quy mô thuần túy.

Vị trí trong hệ sinh thái AI rộng hơn

QVAC Genesis II gia nhập một hệ sinh thái AI được đánh dấu bởi sự phát triển nhanh chóng và mức độ tập trung tài nguyên ngày càng tăng. Nhiều mô hình mạnh mẽ nhất được huấn luyện trên các bộ dữ liệu độc quyền không thể tiếp cận để kiểm tra hoặc sao chép.

Các bộ dữ liệu mở như Genesis II đưa ra một đối trọng, cho phép minh bạch và tiến bộ được chia sẻ. Chúng cũng đặt ra các câu hỏi về cách các nguồn lực mở có thể cùng tồn tại với phát triển AI mang tính thương mại.

Sự tham gia của một công ty có nguồn gốc từ fintech và tài sản kỹ thuật số cho thấy nghiên cứu AI đang thu hút sự quan tâm từ nhiều ngành công nghiệp khác nhau, vượt ra ngoài các công ty công nghệ truyền thống.

Tính sẵn có và các bước tiếp theo

Tài liệu kỹ thuật đầy đủ cho bộ dữ liệu, có tựa đề “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” đã được công bố trên blog nghiên cứu của QVAC. Truy cập vào bộ dữ liệu và các mô hình liên quan có sẵn thông qua Hugging Face.

QVAC đã cho biết họ dự định tiếp tục tinh chỉnh các phương pháp và mở rộng phạm vi giáo dục trong các bản phát hành trong tương lai. Phản hồi từ cộng đồng nghiên cứu được kỳ vọng sẽ đóng vai trò trong việc định hình các phiên bản tiếp theo.

Nỗ lực tiếp diễn hướng tới các nền tảng mở

Với Genesis II, QVAC củng cố vị trí của mình rằng dữ liệu huấn luyện mở và có cấu trúc là điều thiết yếu để xây dựng các hệ thống AI đáng tin cậy. Bản phát hành phản ánh quan điểm rằng trí tuệ cần được dựa trên suy luận và giải thích, chứ không chỉ là liên kết thống kê.

Khi các hệ thống AI ngày càng được tích hợp vào giáo dục, khoa học và dịch vụ tài chính, bao gồm cả các ứng dụng fintech, chất lượng dữ liệu huấn luyện của chúng sẽ vẫn là mối quan ngại trung tâm.

Tạm thời, bộ dữ liệu Genesis được mở rộng là một đóng góp đáng chú ý cho nghiên cứu Open AI, mang lại quy mô, cấu trúc và khả năng tiếp cận ở mức độ hiếm khi thấy bên ngoài các môi trường độc quyền.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim