Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Dữ liệu con người sẽ được OpenAI sử dụng hết, rồi sao?
“Lớn hơn lớn hơn” (Bigger than better) là một quảng cáo của Apple năm đó, dùng để miêu tả mô hình ngôn ngữ lớn hot nhất trong lĩnh vực AI, có vẻ như không có gì sai với nó.
Từ hàng tỷ đến hàng chục tỷ đến hàng trăm tỷ, các tham số của mô hình lớn dần trở nên hoang dã, tương ứng, lượng dữ liệu dùng để huấn luyện AI cũng tăng theo cấp số nhân.
Lấy GPT của OpenAI làm ví dụ, từ GPT-1 đến GPT-3, bộ dữ liệu đào tạo của nó đã tăng theo cấp số nhân từ 4,5 GB lên 570 GB.
Tại hội nghị Data+AI do Databricks tổ chức cách đây không lâu, Marc Andreessen, người sáng lập a16z, tin rằng lượng dữ liệu khổng lồ được Internet tích lũy trong hai thập kỷ qua là nguyên nhân quan trọng dẫn đến sự trỗi dậy của làn sóng AI mới này, bởi vì cái trước cung cấp cho cái sau dữ liệu huấn luyện có thể sử dụng được.
Tuy nhiên, ngay cả khi cư dân mạng để lại nhiều dữ liệu hữu ích hoặc vô dụng trên Internet, thì đối với việc đào tạo AI, những dữ liệu này có thể chạm đáy.
Một bài báo được xuất bản bởi Epoch, một tổ chức nghiên cứu và dự báo trí tuệ nhân tạo, dự đoán rằng dữ liệu văn bản chất lượng cao sẽ cạn kiệt trong khoảng thời gian từ 2023-2027.
Mặc dù nhóm nghiên cứu thừa nhận rằng có những hạn chế nghiêm trọng trong phương pháp phân tích và độ chính xác của mô hình là cao, nhưng thật khó để phủ nhận rằng tốc độ mà AI tiêu thụ các tập dữ liệu là rất đáng sợ.
Khi hết dữ liệu “con người”, việc đào tạo AI chắc chắn sẽ sử dụng nội dung do chính AI sản xuất. Tuy nhiên, “vòng lặp bên trong” như vậy sẽ đặt ra những thách thức lớn.
Cách đây không lâu, các nhà nghiên cứu từ Đại học Cambridge, Đại học Oxford, Đại học Toronto và các trường đại học khác đã xuất bản các bài báo chỉ ra rằng việc sử dụng nội dung do AI tạo ra để đào tạo AI sẽ dẫn đến sự sụp đổ của mô hình mới. **
Vì vậy, lý do cho sự cố do “dữ liệu được tạo” để đào tạo AI là gì? Có sự giúp đỡ nào không?
01 Hậu quả của AI “cận huyết”
Trong bài báo có tiêu đề “Lời nguyền của đệ quy: Đào tạo với dữ liệu được tạo khiến các mô hình bị lãng quên”, các nhà nghiên cứu chỉ ra rằng “sự sụp đổ của mô hình” là một quá trình suy thoái của các mô hình qua nhiều thế hệ**.
Dữ liệu do thế hệ mô hình trước tạo ra sẽ làm ô nhiễm thế hệ mô hình tiếp theo.Sau nhiều thế hệ “kế thừa” mô hình, chúng sẽ nhận thức sai về thế giới.
Sự sụp đổ mô hình xảy ra theo hai bước:
Đầu tiên, các nhà nghiên cứu đã đào tạo các mô hình vài lần chụp GMM (Mô hình hỗn hợp Gaussian) và VAE (Bộ mã hóa tự động biến đổi) từ đầu. Lấy GMM làm ví dụ, phía bên trái của hình bên dưới là phân phối chuẩn của dữ liệu gốc.
Như bạn có thể thấy, mô hình ban đầu rất phù hợp với dữ liệu. Đến lần lặp lại thứ 50, việc phân phối dữ liệu cơ bản bắt đầu bị hiểu sai. Khi lặp lại 2000 lần, mô hình đã hội tụ đến một điểm rất nhỏ, điều đó có nghĩa là mô hình bắt đầu đưa ra các câu trả lời sai một cách đều đặn.
Để xác minh tác động của đào tạo trước đối với kết quả thử nghiệm, các nhà nghiên cứu đã tiến hành thử nghiệm trên 125 triệu tham số LLM (Mô hình ngôn ngữ lớn) OPT-125m do Meta phát triển. Tập dữ liệu lấy từ wikitext2 của Wikipedia.
Không giống như các mô hình nhỏ như GMM và VAE, chi phí đào tạo LLM từ đầu rất cao nên tất cả đều được đào tạo trước. Kết quả thực nghiệm như sau:
Có thể thấy, đến đời model thứ 9, nội dung xuất ra đã hoàn toàn không thể hiểu được.
Ilia Shumailov, một trong những tác giả của bài báo, nói rằng theo thời gian, các lỗi trong dữ liệu do AI tạo ra tích lũy và các mô hình chính được đào tạo dựa trên dữ liệu này phát triển một cái nhìn thậm chí còn méo mó hơn về thực tế.
02 Tại sao mô hình bị sập?
Lý do chính của “sự sụp đổ mô hình” là AI không phải là trí thông minh thực sự. Đằng sau khả năng ước tính “trí thông minh” thực sự là một phương pháp thống kê dựa trên một lượng lớn dữ liệu.
Về cơ bản, tất cả các thuật toán học máy không giám sát đều tuân theo một mẫu đơn giản: Cho một chuỗi dữ liệu, đào tạo một mô hình có thể mô tả quy luật của những dữ liệu này.
Trong quá trình này, dữ liệu có xác suất cao hơn trong tập huấn luyện có nhiều khả năng được mô hình đánh giá cao hơn và dữ liệu có xác suất thấp hơn sẽ bị mô hình đánh giá thấp.
Ví dụ, giả sử chúng ta cần ghi lại kết quả của 100 lần ném xúc xắc để tính xác suất xuất hiện của mỗi mặt. Về lý thuyết, xác suất xuất hiện của mỗi mặt là như nhau. Trong thực tế, do cỡ mẫu nhỏ nên có thể có nhiều trường hợp 3 và 4 hơn. Nhưng đối với mô hình, dữ liệu mà nó học được là 3 và 4 có xác suất xuất hiện cao hơn nên nó có xu hướng tạo ra kết quả 3 và 4 nhiều hơn.
Một nguyên nhân phụ khác là lỗi xấp xỉ hàm. Điều này cũng dễ hiểu, vì các hàm thực thường rất phức tạp, trong các ứng dụng thực tế, các hàm đơn giản hóa thường được sử dụng để xấp xỉ các hàm thực, dẫn đến sai số.
03 Bạn có thực sự không may mắn?
Lo lắng!
Vì vậy, với ngày càng ít dữ liệu của con người, liệu có thực sự không có cơ hội cho việc đào tạo AI?
Không, vẫn có cách để giải quyết vấn đề cạn kiệt dữ liệu để đào tạo AI:
Dữ liệu “cô lập”
Khi AI ngày càng trở nên mạnh mẽ hơn, ngày càng có nhiều người bắt đầu sử dụng AI để hỗ trợ họ trong công việc và AIGC trên Internet đã bùng nổ và “bộ dữ liệu sạch của con người” có thể ngày càng khó tìm hơn.
Daphne Ippolito, nhà khoa học nghiên cứu cấp cao tại Google Brain, bộ phận nghiên cứu học sâu của Google, cho biết trong tương lai, sẽ ngày càng khó tìm được dữ liệu đào tạo đảm bảo, chất lượng cao nếu không có trí tuệ nhân tạo.
Điều này giống như tổ tiên loài người mắc phải căn bệnh di truyền có nguy cơ cao, nhưng lại có năng lực sinh sản cực kỳ mạnh mẽ. Trong một khoảng thời gian ngắn, anh ta đã nhân rộng con cháu của mình đến mọi nơi trên trái đất. Rồi đến một lúc nào đó, một căn bệnh di truyền bùng phát và toàn bộ nhân loại bị tuyệt chủng.
Để giải quyết tình trạng “sụp đổ mô hình”, một phương pháp được nhóm nghiên cứu đề xuất là “lợi thế của người đi trước”, tức là giữ quyền truy cập vào các nguồn dữ liệu được tạo nhân tạo sạch, tách AIGC khỏi nguồn dữ liệu đó.
Đồng thời, điều này đòi hỏi nhiều cộng đồng và công ty phải hợp lực để giữ cho dữ liệu của con người không bị ô nhiễm bởi AIGC.
Tuy nhiên, sự khan hiếm dữ liệu của con người có nghĩa là có nhiều cơ hội sinh lợi để làm như vậy và một số công ty đã làm điều đó. Reddit cho biết nó sẽ làm tăng đáng kể chi phí truy cập API của nó. Các giám đốc điều hành của công ty cho biết những thay đổi này (một phần) là phản ứng đối với việc các công ty AI ăn cắp dữ liệu của họ. “Cơ sở dữ liệu của Reddit thực sự có giá trị. Nhưng chúng tôi không cần cung cấp miễn phí tất cả giá trị đó cho một số công ty lớn nhất trên thế giới”, Steve Huffman, người sáng lập kiêm Giám đốc điều hành Reddit, nói với The New York Times.
Số liệu tổng hợp
Đồng thời, chuyên nghiệp dựa trên dữ liệu do AI tạo ra, nó đã được sử dụng hiệu quả trong đào tạo AI. Trong mắt một số học viên, hiện nay lo lắng rằng dữ liệu do AI tạo ra sẽ khiến mô hình sụp đổ là hơi “đảng rầm rộ”.
Xie Chenguang, người sáng lập Light Wheel Intelligence, nói với Geek Park rằng như đã đề cập trong các bài báo nước ngoài, việc sử dụng dữ liệu do AI tạo ra để đào tạo các mô hình AI dẫn đến sự cố và các phương pháp thử nghiệm bị sai lệch. Ngay cả dữ liệu của con người cũng có thể được chia thành có thể sử dụng được và không thể sử dụng được, và các thí nghiệm được đề cập trong bài báo được sử dụng trực tiếp để đào tạo mà không có sự phân biệt đối xử, thay vì được nhắm mục tiêu làm dữ liệu đào tạo sau khi kiểm tra chất lượng và đánh giá hiệu quả.
Xie Chen tiết lộ rằng, trên thực tế, GPT-4 của OpenAI sử dụng một lượng lớn dữ liệu do mô hình thế hệ trước GPT-3.5 tạo ra để đào tạo. Sam Altman cũng bày tỏ trong một cuộc phỏng vấn gần đây rằng dữ liệu tổng hợp là một cách hiệu quả để giải quyết tình trạng thiếu dữ liệu mô hình lớn. Điểm mấu chốt là có một hệ thống hoàn chỉnh để phân biệt dữ liệu nào do AI tạo ra là có thể sử dụng được và dữ liệu nào không, đồng thời liên tục đưa ra phản hồi dựa trên tác động của mô hình được đào tạo—đây là một trong những thủ thuật độc đáo của OpenAI đáng tự hào về Đấu trường AI **, công ty này không chỉ đơn giản là huy động thêm tiền và mua thêm sức mạnh tính toán.
Trong ngành AI, việc sử dụng dữ liệu tổng hợp để đào tạo mô hình đã trở thành một sự đồng thuận mà người ngoài vẫn chưa biết đến.
Xie Chen, người từng phụ trách mô phỏng lái xe tự động trong các công ty như Nvidia, Cruise và Weilai, tin rằng dựa trên lượng dữ liệu hiện tại để đào tạo mô hình quy mô lớn khác nhau, trong 2-3 năm tới, con người sẽ dữ liệu thực sự có thể bị “cạn kiệt”. Tuy nhiên, dựa trên các hệ thống và phương pháp chuyên biệt, dữ liệu tổng hợp do AI tạo ra sẽ trở thành nguồn dữ liệu hiệu quả vô tận**. Và các kịch bản sử dụng không giới hạn ở văn bản và hình ảnh.Lượng dữ liệu tổng hợp được yêu cầu bởi các ngành như lái xe tự động và người máy sẽ lớn hơn nhiều so với lượng dữ liệu văn bản.
Ba yếu tố của AI là dữ liệu, sức mạnh tính toán và thuật toán. Nguồn dữ liệu đã được giải quyết và mô hình lớn của thuật toán không ngừng phát triển. Áp lực sức mạnh tính toán duy nhất còn lại, tôi tin rằng người sáng lập Nvidia Huang Renxun có thể giải quyết được thông suốt.