Tether mở rộng dữ liệu huấn luyện của Open AI với việc phát hành Bộ dữ liệu QVAC Genesis II

SleepTrader

2026-03-30 16:31:00

Khám phá các tin tức và sự kiện fintech hàng đầu!

Đăng ký bản tin của FinTech Weekly

Được đọc bởi các giám đốc điều hành tại JP Morgan, Coinbase, Blackrock, Klarna và hơn thế nữa

Một Sự Mở Rộng Lớn trong Dữ Liệu Huấn Luyện Open AI

Tether Data đã phát hành một phiên bản mới của bộ dữ liệu giáo dục tổng hợp (synthetic) của họ dành cho trí tuệ nhân tạo, tăng đáng kể khối lượng và phạm vi của tài liệu huấn luyện mở có sẵn cho các nhà nghiên cứu trên toàn thế giới. Bộ phận nghiên cứu AI của công ty, QVAC, đã công bố rằng bản phát hành mới, có tên QVAC Genesis II, bổ sung 107 tỷ token vào bộ dữ liệu trước đó, nâng tổng quy mô lên 148 tỷ token.

Bộ dữ liệu mở rộng hiện là nguồn tài nguyên giáo dục tổng hợp tổng quát (synthetic educational) lớn nhất công khai dành cho AI pre-training, được thiết kế riêng cho mục đích huấn luyện trước của AI. Bộ dữ liệu trải rộng trên 19 lĩnh vực học thuật và nhằm cải thiện cách các mô hình học lập luận, giải thích và ra quyết định thay vì chỉ nhận diện mẫu ở bề mặt.

Thông báo đặt bản phát hành này như một bước hướng tới việc phát triển AI minh bạch và dễ tiếp cận hơn, trong bối cảnh nhiều bộ dữ liệu huấn luyện tiên tiến vẫn bị khóa trong các hệ thống độc quyền.

Xây Dựng Từ Bản Genesis Ban Đầu

QVAC Genesis II dựa trên công việc lần đầu được giới thiệu với Genesis I, vốn tập trung vào việc tạo ra một bộ dữ liệu tổng hợp đã được xác thực, lấy giáo dục làm trung tâm, bao phủ các môn học cốt lõi về khoa học, công nghệ, kỹ thuật và toán học. Bản phát hành trước đó đã thiết lập một khuôn khổ để tạo ra các câu hỏi huấn luyện có cấu trúc nhằm cải thiện độ chính xác trong lập luận.

Bản phát hành mới mở rộng phạm vi sang mười lĩnh vực bổ sung, bao gồm hóa học, khoa học máy tính, thống kê, machine learning, thiên văn học, địa lý, kinh tế lượng (econometrics) và kỹ thuật điện. Bản phát hành này cũng xem xét lại nội dung vật lý ở bậc đại học, tái tạo lại bằng một phương pháp luận được cập nhật, được thiết kế để cải thiện độ rõ ràng về khái niệm.

Kết hợp hai bản phát hành, QVAC mô tả rằng đây là bộ dữ liệu giáo dục tổng hợp đầy đủ nhất từng được cung cấp cho công chúng. Bộ dữ liệu được dự định dùng cho pre-training các mô hình ngôn ngữ lớn và các hệ thống AI khác cần tài liệu học thuật có cấu trúc.

Một Sự Thay Đổi Trong Cách Dữ Liệu Huấn Luyện Được Tạo Ra

Cốt lõi của Genesis II là một phương pháp tạo dữ liệu mới được gọi là Option-Level Reasoning. Cách tiếp cận này khác với nhiều kỹ thuật dữ liệu tổng hợp hiện có ở chỗ tập trung không chỉ vào các câu trả lời sai, mà còn vào các câu trả lời đúng.

Thay vì coi một phản hồi đúng là điểm kết thúc của quy trình, phương pháp này phân tích từng lựa chọn trong câu hỏi trắc nghiệm nhiều lựa chọn. Các lựa chọn đúng được phân rã để củng cố vì sao chúng là đúng, trong khi các lựa chọn sai được xem xét để xử lý những ngộ nhận phổ biến. Cấu trúc này cho phép các mô hình học lập luận nhân quả và logic ra quyết định, thay vì chỉ đơn giản là gắn câu hỏi với kết quả.

Cách tiếp cận này bổ sung cho phương pháp Failure Analysis được giới thiệu trong Genesis I, vốn tập trung vào việc rút ra giá trị từ các lỗi của mô hình. Cùng với nhau, hai phương pháp tạo thành một đường ống (pipeline) trong đó mỗi câu hỏi được tạo ra đều được thiết kế để góp phần tạo giá trị mang tính hướng dẫn.

Các đánh giá độc lập được QVAC trích dẫn cho thấy các mô hình được huấn luyện trên dữ liệu Genesis II có độ chính xác trong lập luận cao hơn và tạo ra câu trả lời rõ ràng hơn so với các mô hình được huấn luyện trên các bộ dữ liệu tổng hợp trước đó.

Nhấn Mạnh Việc Hiểu Biết Thay Vì Sự Lưu Loát

Hệ sinh thái huấn luyện AI hiện tại phần lớn dựa vào việc lắp ghép những khối lượng văn bản rất lớn, thường được trích xuất (scraped) từ các nguồn công khai, nhằm cải thiện độ lưu loát ngôn ngữ. Mục tiêu đã nêu của QVAC khác ở trọng tâm. Các bộ dữ liệu Genesis được cấu trúc để dạy các mô hình cách suy luận qua vấn đề và giải thích kết luận theo một cách rõ ràng.

Ban lãnh đạo công ty đã cho biết ý định là chuyển vượt ra khỏi các hệ thống huấn luyện chỉ dự đoán chuỗi văn bản có khả năng xảy ra, hướng tới các mô hình thể hiện sự hiểu biết về các khái niệm nền tảng. Thiết kế bộ dữ liệu ưu tiên tính rõ ràng, tính nhân quả và logic, nhằm giảm thiểu sự mơ hồ trong đầu ra của mô hình.

Cách tiếp cận này phù hợp với các thảo luận rộng hơn trong nghiên cứu AI về độ tin cậy và khả năng giải thích (explainability), đặc biệt khi các hệ thống AI được sử dụng trong giáo dục, khoa học và các bối cảnh hỗ trợ ra quyết định.

Mở Cửa Truy Cập Cho Nhà Nghiên Cứu và Nhà Phát Triển

Tương tự như bộ dữ liệu Genesis ban đầu, QVAC Genesis II cũng được phát hành công khai. Bộ dữ liệu có sẵn theo giấy phép Creative Commons Attribution–NonCommercial 4.0, cho phép các nhà nghiên cứu, các tổ chức học thuật và các nhà phát triển độc lập sử dụng và nghiên cứu dữ liệu bên ngoài các bối cảnh thương mại.

Bộ dữ liệu và các mô hình liên quan được lưu trữ trên Hugging Face, cùng với một bài báo kỹ thuật chi tiết nêu rõ phương pháp tạo ra và kết quả đánh giá. Việc phân phối công khai này nhằm mục đích giảm rào cản cho các nhà nghiên cứu không có quyền truy cập vào các bộ dữ liệu độc quyền quy mô lớn.

Bằng cách duy trì cấp phép phi thương mại, QVAC hướng tới hỗ trợ nghiên cứu học thuật và do cộng đồng thúc đẩy, đồng thời hạn chế việc khai thác thương mại trực tiếp.

Hỗ Trợ Phát Triển AI Phi Tập Trung

Bản phát hành này cũng nằm trong một chiến lược rộng hơn mà Tether Data theo đuổi nhằm khuyến khích phát triển AI phi tập trung. Công ty đã nêu rằng dữ liệu huấn luyện chất lượng cao không nên bị giới hạn cho các tổ chức có quyền truy cập vào hạ tầng điện toán đám mây tập trung.

Bằng cách đưa ra công khai các bộ dữ liệu có cấu trúc quy mô lớn, QVAC hướng tới cho phép huấn luyện cục bộ, thử nghiệm và triển khai các mô hình AI. Cách tiếp cận này được thiết kế để hỗ trợ các môi trường nghiên cứu nơi tài nguyên tính toán có thể bị giới hạn nhưng các đóng góp về mặt trí tuệ vẫn mang ý nghĩa lớn.

Trọng tâm về phi tập trung phản ánh sự quan tâm ngày càng tăng trong việc giảm phụ thuộc vào một số ít nền tảng AI thống trị và thúc đẩy một hệ sinh thái nghiên cứu phân tán hơn.

Vai Trò của Tether Trong Nghiên Cứu AI

QVAC vận hành như bộ phận nghiên cứu AI của Tether Data. Mặc dù Tether được biết đến rộng rãi với vai trò trong các tài sản kỹ thuật số và stablecoins, công ty trong những năm gần đây đã mở rộng hoạt động của mình sang mảng dữ liệu và nghiên cứu AI.

Thông qua QVAC, Tether Data tập trung vào việc xây dựng hạ tầng và các tài nguyên hỗ trợ nghiên cứu mở. Các bộ dữ liệu Genesis là một trong những sản phẩm đầu ra dễ nhận thấy nhất của nỗ lực đó, định vị công ty trong các thảo luận về phát triển Open AI và dữ liệu huấn luyện lấy giáo dục làm trọng tâm.

Công việc này cũng phản ánh sự giao thoa ngày càng tăng giữa các công ty fintech và nghiên cứu AI tiên tiến, khi các doanh nghiệp công nghệ tài chính ngày càng đầu tư vào năng lực khoa học dữ liệu và machine learning.

Góc Nhìn Của Ban Lãnh Đạo Về Bản Phát Hành

Ban lãnh đạo công ty đã định khung việc phát hành Genesis II như một bước đi rời khỏi các cách tiếp cận huấn luyện chỉ ưu tiên khối lượng. Theo các tuyên bố từ nhóm điều hành của Tether, trọng tâm là dạy các hệ thống AI cách suy luận và giải thích, thay vì chỉ đơn thuần tạo ra các phản hồi trôi chảy.

Paolo Ardoino, CEO của Tether, đã nhấn mạnh rằng AI đáng tin cậy cần dựa trên việc hiểu vì sao các câu trả lời là đúng. Ông cũng cho biết việc làm cho bộ dữ liệu được cung khai phản ánh niềm tin rằng AI mạnh hơn, dễ giải thích hơn sẽ mang lại lợi ích cho toàn xã hội.

Những quan điểm này vang vọng các lo ngại do các nhà nghiên cứu đưa ra về những giới hạn của các mô hình được huấn luyện chủ yếu trên văn bản phi cấu trúc.

Phạm Vi Giáo Dục và Mức Bao Phủ Theo Lĩnh Vực

Hai bộ dữ liệu kết hợp Genesis I và II bao phủ 19 lĩnh vực, với nội dung được thiết kế ở các cấp độ giáo dục trung học và đại học. Các môn học trải từ toán học và vật lý nền tảng đến các lĩnh vực ứng dụng như econometrics và machine learning.

Mỗi lĩnh vực bao gồm các câu hỏi có cấu trúc, giải thích và các lộ trình lập luận nhằm mô phỏng cách các khái niệm được dạy và đánh giá trong môi trường giáo dục chính quy. Thiết kế này được nhằm hỗ trợ các tác vụ pre-training cần tính nhất quán logic và chiều sâu về mặt khái niệm.

Bằng cách tái tạo và mở rộng nội dung bằng các phương pháp được cải tiến, QVAC hướng tới tinh chỉnh cách tài liệu giáo dục được biểu diễn trong các bộ dữ liệu tổng hợp.

Đánh Giá và Hiệu Suất Mô Hình

Theo các đánh giá nội bộ và độc lập được QVAC viện dẫn, các mô hình được huấn luyện trên dữ liệu Genesis II cho thấy hiệu năng được cải thiện trong các tác vụ nặng về lập luận. Chúng bao gồm trả lời các câu hỏi có cấu trúc, giải thích các kết luận và tránh các phản hồi mơ hồ hoặc mâu thuẫn.

Kết quả đánh giá cho thấy sự kết hợp giữa Failure Analysis và Option-Level Reasoning dẫn đến đầu ra nhất quán hơn. Mặc dù công ty không định vị bộ dữ liệu như một giải pháp độc lập, họ đã trình bày nó như một nền tảng vững chắc cho việc huấn luyện và tinh chỉnh tiếp theo.

Người nghiên cứu được kỳ vọng sẽ tiến hành các đánh giá bổ sung khi bộ dữ liệu được sử dụng rộng rãi hơn trong cộng đồng.

Hàm Ý Đối Với Nghiên Cứu Open AI

Việc phát hành một bộ dữ liệu mở có quy mô lớn như vậy có thể ảnh hưởng đến cách các nhà nghiên cứu học thuật và độc lập tiếp cận huấn luyện mô hình. Truy cập vào dữ liệu giáo dục có cấu trúc ở quy mô này trước đây thường bị giới hạn đối với các tổ chức được tài trợ tốt.

Bằng cách cung cấp một lựa chọn thay thế, QVAC Genesis II có thể hỗ trợ thử nghiệm với các mô hình nhỏ hơn, các nỗ lực huấn luyện cục bộ và nghiên cứu về các phương pháp AI có khả năng giải thích.

Bộ dữ liệu cũng có thể đóng vai trò làm chuẩn (benchmark) cho các dự án dữ liệu tổng hợp trong tương lai, ưu tiên chất lượng lập luận hơn là chỉ thuần quy mô.

Vị Trí Trong Hệ Sinh Thái AI Rộng Lớn

QVAC Genesis II bước vào một hệ sinh thái AI được đánh dấu bởi sự phát triển nhanh chóng và sự tập trung nguồn lực ngày càng tăng. Nhiều trong số các mô hình có năng lực cao nhất được huấn luyện trên các bộ dữ liệu độc quyền không thể truy tra cứu hoặc tái tạo.

Các bộ dữ liệu mở như Genesis II đưa ra một đối trọng, cho phép minh bạch và tiến bộ được chia sẻ. Chúng cũng đặt ra câu hỏi về việc các nguồn lực mở có thể đồng tồn với sự phát triển AI mang tính thương mại như thế nào.

Việc có sự tham gia của một công ty khởi nguồn từ fintech và các tài sản kỹ thuật số cho thấy nghiên cứu AI đang thu hút sự quan tâm từ nhiều lĩnh vực khác nhau ngoài các doanh nghiệp công nghệ truyền thống.

Tính Sẵn Có và Các Bước Tiếp Theo

Tài liệu kỹ thuật đầy đủ cho bộ dữ liệu, có tiêu đề “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” đã được công bố trên blog nghiên cứu của QVAC. Việc truy cập bộ dữ liệu và các mô hình liên quan có sẵn thông qua Hugging Face.

QVAC cho biết họ dự định tiếp tục tinh chỉnh các phương pháp của mình và mở rộng mức bao phủ giáo dục trong các bản phát hành tương lai. Phản hồi từ cộng đồng nghiên cứu được kỳ vọng sẽ đóng vai trò trong việc định hình các phiên bản tiếp theo.

Tiếp Tục Thúc Đẩy Nền Tảng Mở

Với Genesis II, QVAC củng cố vị thế của mình rằng dữ liệu huấn luyện mở, có cấu trúc là điều thiết yếu để xây dựng các hệ thống AI đáng tin cậy. Bản phát hành phản ánh quan điểm cho rằng trí tuệ cần được dựa trên lập luận và giải thích, chứ không chỉ là liên kết thống kê.

Khi các hệ thống AI ngày càng được tích hợp vào giáo dục, khoa học và các dịch vụ tài chính, bao gồm các ứng dụng fintech, thì chất lượng dữ liệu huấn luyện của chúng sẽ vẫn là một mối quan tâm trung tâm.

Trong lúc này, bộ dữ liệu Genesis mở rộng là một đóng góp đáng chú ý cho nghiên cứu Open AI, mang đến quy mô, cấu trúc và khả năng tiếp cận ở mức mà hiếm khi thấy ngoài các môi trường độc quyền.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.