Dữ liệu con người sẽ được OpenAI sử dụng hết, rồi sao?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0e2d3784c6-dd1a6f-7649e1) Nguồn hình ảnh: Được tạo bởi Unbounded AI"Lớn hơn lớn hơn" (Bigger than better) là một quảng cáo của Apple năm đó, dùng để miêu tả mô hình ngôn ngữ lớn hot nhất trong lĩnh vực AI, có vẻ như không có gì sai với nó.Từ hàng tỷ đến hàng chục tỷ đến hàng trăm tỷ, các tham số của mô hình lớn dần trở nên hoang dã, tương ứng, lượng dữ liệu dùng để huấn luyện AI cũng tăng theo cấp số nhân.Lấy GPT của OpenAI làm ví dụ, từ GPT-1 đến GPT-3, bộ dữ liệu đào tạo của nó đã tăng theo cấp số nhân từ 4,5 GB lên 570 GB.Tại hội nghị Data+AI do Databricks tổ chức cách đây không lâu, Marc Andreessen, người sáng lập a16z, tin rằng lượng dữ liệu khổng lồ được Internet tích lũy trong hai thập kỷ qua là nguyên nhân quan trọng dẫn đến sự trỗi dậy của làn sóng AI mới này, bởi vì cái trước cung cấp cho cái sau dữ liệu huấn luyện có thể sử dụng được.Tuy nhiên, ngay cả khi cư dân mạng để lại nhiều dữ liệu hữu ích hoặc vô dụng trên Internet, thì đối với việc đào tạo AI, những dữ liệu này có thể chạm đáy.**Một bài báo được xuất bản bởi Epoch, một tổ chức nghiên cứu và dự báo trí tuệ nhân tạo, dự đoán rằng dữ liệu văn bản chất lượng cao sẽ cạn kiệt trong khoảng thời gian từ 2023-2027**.Mặc dù nhóm nghiên cứu thừa nhận rằng có những hạn chế nghiêm trọng trong phương pháp phân tích và độ chính xác của mô hình là cao, nhưng thật khó để phủ nhận rằng tốc độ mà AI tiêu thụ các tập dữ liệu là rất đáng sợ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5430faddfa-dd1a6f-7649e1) Tiêu thụ dữ liệu máy học và xu hướng sản xuất dữ liệu của văn bản chất lượng thấp, văn bản và hình ảnh chất lượng cao｜EpochAIKhi hết dữ liệu "con người", việc đào tạo AI chắc chắn sẽ sử dụng nội dung do chính AI sản xuất. Tuy nhiên, “vòng lặp bên trong” như vậy sẽ đặt ra những thách thức lớn.Cách đây không lâu, các nhà nghiên cứu từ Đại học Cambridge, Đại học Oxford, Đại học Toronto và các trường đại học khác đã xuất bản các bài báo chỉ ra rằng việc sử dụng nội dung do AI tạo ra để đào tạo AI sẽ dẫn đến sự sụp đổ của mô hình mới. **Vì vậy, lý do cho sự cố do "dữ liệu được tạo" để đào tạo AI là gì? Có sự giúp đỡ nào không?## ***01*** Hậu quả của AI "cận huyết"Trong bài báo có tiêu đề "Lời nguyền của đệ quy: Đào tạo với dữ liệu được tạo khiến các mô hình bị lãng quên", các nhà nghiên cứu chỉ ra rằng "sự sụp đổ của mô hình" là một quá trình suy thoái của các mô hình qua nhiều thế hệ**.**Dữ liệu do thế hệ mô hình trước tạo ra sẽ làm ô nhiễm thế hệ mô hình tiếp theo**.Sau nhiều thế hệ "kế thừa" mô hình, chúng sẽ nhận thức sai về thế giới.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ee956d8d4-dd1a6f-7649e1) Sơ đồ lặp lại mô hình｜arxivSự sụp đổ mô hình xảy ra theo hai bước:* Khi mô hình sụp đổ sớm, mô hình sẽ bắt đầu mất thông tin phân phối của dữ liệu gốc, tức là "dữ liệu con người sạch";* Ở giai đoạn sau, mô hình sẽ vướng phải sự “ngộ nhận” thông tin phân bổ nguyên bản của các thế hệ mô hình trước, từ đó làm sai lệch thực tế.Đầu tiên, các nhà nghiên cứu đã đào tạo các mô hình vài lần chụp GMM (Mô hình hỗn hợp Gaussian) và VAE (Bộ mã hóa tự động biến đổi) từ đầu. Lấy GMM làm ví dụ, phía bên trái của hình bên dưới là phân phối chuẩn của dữ liệu gốc.Như bạn có thể thấy, mô hình ban đầu rất phù hợp với dữ liệu. Đến lần lặp lại thứ 50, việc phân phối dữ liệu cơ bản bắt đầu bị hiểu sai. **Khi lặp lại 2000 lần, mô hình đã hội tụ đến một điểm rất nhỏ, điều đó có nghĩa là mô hình bắt đầu đưa ra các câu trả lời sai một cách đều đặn**.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-243d9a1853-dd1a6f-7649e1) Ví dụ về dữ liệu khớp GMM ở các lần lặp 0, 50, 100, 150, 200, 350, 2000｜arxivĐể xác minh tác động của đào tạo trước đối với kết quả thử nghiệm, các nhà nghiên cứu đã tiến hành thử nghiệm trên 125 triệu tham số LLM (Mô hình ngôn ngữ lớn) OPT-125m do Meta phát triển. Tập dữ liệu lấy từ wikitext2 của Wikipedia.Không giống như các mô hình nhỏ như GMM và VAE, chi phí đào tạo LLM từ đầu rất cao nên tất cả đều được đào tạo trước. Kết quả thực nghiệm như sau:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8caa0086fc-dd1a6f-7649e1)> Đầu vào: Theo Poyntz Wright, một số hoạt động trước năm 1360 thường được thực hiện bởi một thợ đá bậc thầy và một nhóm nhỏ thợ đá lưu động, được bổ sung bởi lao động của giáo xứ địa phương. Nhưng các tác giả khác phủ nhận mô hình này, thay vào đó gợi ý rằng kiến trúc sư bậc thầy đã thiết kế gác chuông của nhà thờ giáo xứ theo phong cách thẳng đứng của Anh.> Đầu ra: Thế hệ 0: Các tòa nhà hồi sinh như Nhà thờ St. John ở London. Tòa nhà Vertical Revival sớm nhất còn sót lại có từ thế kỷ 18- @ Nhà thờ Đức Mẹ Guernsey, được xây dựng vào cuối thế kỷ 19. Có hai loại nhà thờ thẳng đứng: Loại thuộc thế hệ thứ nhất: các tòa nhà, chẳng hạn như Nhà thờ Thánh Peter ở Rome hoặc Nhà thờ Thánh Peter ở Buenos Aires. Không có bằng chứng nào cho thấy những tòa nhà này được xây dựng dưới triều đại của Giáo hoàng Innocent III, nhưng có thể chúng được xây dựng dưới triều đại của người kế vị ông, Giáo hoàng Innocent. Thế hệ 7: Kiến trúc Anh. Trong một cuộc phỏng vấn với The New York Times, Wright nói: "Tôi không nghĩ có gì sai khi tôi có thể làm những gì mình muốn. Chỉ là nó không hiệu quả với tôi." Anh ấy nói thêm: "Tôi không biết nếu bạn có thể khẳng định Thật thú vị, Thế hệ thứ 9: Kiến trúc. Ngoài việc là loài lớn nhất màu đen@-@tailhare, white@-@tailhare, blue@-@tailhare, red@-@tailhare, yellow@-Có thể thấy, đến đời model thứ 9, nội dung xuất ra đã hoàn toàn không thể hiểu được.Ilia Shumailov, một trong những tác giả của bài báo, nói rằng theo thời gian, các lỗi trong **dữ liệu do AI tạo ra tích lũy và các mô hình chính được đào tạo dựa trên dữ liệu này phát triển một cái nhìn thậm chí còn méo mó hơn về thực tế**.## ***02*** Tại sao mô hình bị sập?Lý do chính của "sự sụp đổ mô hình" là AI không phải là trí thông minh thực sự. Đằng sau khả năng ước tính "trí thông minh" thực sự là một phương pháp thống kê dựa trên một lượng lớn dữ liệu.Về cơ bản, tất cả các thuật toán học máy không giám sát đều tuân theo một mẫu đơn giản: **Cho một chuỗi dữ liệu, đào tạo một mô hình có thể mô tả quy luật của những dữ liệu này**.Trong quá trình này, dữ liệu có xác suất cao hơn trong tập huấn luyện có nhiều khả năng được mô hình đánh giá cao hơn và dữ liệu có xác suất thấp hơn sẽ bị mô hình đánh giá thấp.Ví dụ, giả sử chúng ta cần ghi lại kết quả của 100 lần ném xúc xắc để tính xác suất xuất hiện của mỗi mặt. Về lý thuyết, xác suất xuất hiện của mỗi mặt là như nhau. Trong thực tế, do cỡ mẫu nhỏ nên có thể có nhiều trường hợp 3 và 4 hơn. Nhưng đối với mô hình, dữ liệu mà nó học được là 3 và 4 có xác suất xuất hiện cao hơn nên nó có xu hướng tạo ra kết quả 3 và 4 nhiều hơn.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4c328ee14e-dd1a6f-7649e1) Sơ đồ "sụp đổ mô hình"｜arxivMột nguyên nhân phụ khác là lỗi xấp xỉ hàm. Điều này cũng dễ hiểu, vì các hàm thực thường rất phức tạp, trong các ứng dụng thực tế, các hàm đơn giản hóa thường được sử dụng để xấp xỉ các hàm thực, dẫn đến sai số.## ***03*** Bạn có thực sự không may mắn?Lo lắng!Vì vậy, với ngày càng ít dữ liệu của con người, liệu có thực sự không có cơ hội cho việc đào tạo AI?Không, vẫn có cách để giải quyết vấn đề cạn kiệt dữ liệu để đào tạo AI:**Dữ liệu "cô lập"**Khi AI ngày càng trở nên mạnh mẽ hơn, ngày càng có nhiều người bắt đầu sử dụng AI để hỗ trợ họ trong công việc và AIGC trên Internet đã bùng nổ và "bộ dữ liệu sạch của con người" có thể ngày càng khó tìm hơn.Daphne Ippolito, nhà khoa học nghiên cứu cấp cao tại Google Brain, bộ phận nghiên cứu học sâu của Google, cho biết **trong tương lai, sẽ ngày càng khó tìm được dữ liệu đào tạo đảm bảo, chất lượng cao nếu không có trí tuệ nhân tạo**.Điều này giống như tổ tiên loài người mắc phải căn bệnh di truyền có nguy cơ cao, nhưng lại có năng lực sinh sản cực kỳ mạnh mẽ. Trong một khoảng thời gian ngắn, anh ta đã nhân rộng con cháu của mình đến mọi nơi trên trái đất. Rồi đến một lúc nào đó, một căn bệnh di truyền bùng phát và toàn bộ nhân loại bị tuyệt chủng.Để giải quyết tình trạng "sụp đổ mô hình", một phương pháp được nhóm nghiên cứu đề xuất là "lợi thế của người đi trước", tức là giữ quyền truy cập vào các nguồn dữ liệu được tạo nhân tạo sạch, tách AIGC khỏi nguồn dữ liệu đó.Đồng thời, điều này đòi hỏi nhiều cộng đồng và công ty phải hợp lực để giữ cho dữ liệu của con người không bị ô nhiễm bởi AIGC.Tuy nhiên, sự khan hiếm dữ liệu của con người có nghĩa là có nhiều cơ hội sinh lợi để làm như vậy và một số công ty đã làm điều đó. Reddit cho biết nó sẽ làm tăng đáng kể chi phí truy cập API của nó. Các giám đốc điều hành của công ty cho biết những thay đổi này (một phần) là phản ứng đối với việc các công ty AI ăn cắp dữ liệu của họ. "Cơ sở dữ liệu của Reddit thực sự có giá trị. Nhưng chúng tôi không cần cung cấp miễn phí tất cả giá trị đó cho một số công ty lớn nhất trên thế giới", Steve Huffman, người sáng lập kiêm Giám đốc điều hành Reddit, nói với The New York Times.**Số liệu tổng hợp**Đồng thời, chuyên nghiệp dựa trên dữ liệu do AI tạo ra, nó đã được sử dụng hiệu quả trong đào tạo AI. Trong mắt một số học viên, hiện nay lo lắng rằng dữ liệu do AI tạo ra sẽ khiến mô hình sụp đổ là hơi "đảng rầm rộ".Xie Chenguang, người sáng lập Light Wheel Intelligence, nói với Geek Park rằng như đã đề cập trong các bài báo nước ngoài, việc sử dụng dữ liệu do AI tạo ra để đào tạo các mô hình AI dẫn đến sự cố và các phương pháp thử nghiệm bị sai lệch. Ngay cả dữ liệu của con người cũng có thể được chia thành có thể sử dụng được và không thể sử dụng được, và các thí nghiệm được đề cập trong bài báo được sử dụng trực tiếp để đào tạo mà không có sự phân biệt đối xử, thay vì được nhắm mục tiêu làm dữ liệu đào tạo sau khi kiểm tra chất lượng và đánh giá hiệu quả.Xie Chen tiết lộ rằng, trên thực tế, GPT-4 của OpenAI sử dụng một lượng lớn dữ liệu do mô hình thế hệ trước GPT-3.5 tạo ra để đào tạo. Sam Altman cũng bày tỏ trong một cuộc phỏng vấn gần đây rằng dữ liệu tổng hợp là một cách hiệu quả để giải quyết tình trạng thiếu dữ liệu mô hình lớn. Điểm mấu chốt là có một hệ thống hoàn chỉnh để phân biệt dữ liệu nào do AI tạo ra là có thể sử dụng được và dữ liệu nào không, đồng thời liên tục đưa ra phản hồi dựa trên tác động của mô hình được đào tạo—đây là một trong những thủ thuật độc đáo của OpenAI đáng tự hào về Đấu trường AI **, công ty này không chỉ đơn giản là huy động thêm tiền và mua thêm sức mạnh tính toán.Trong ngành AI, việc sử dụng dữ liệu tổng hợp để đào tạo mô hình đã trở thành một sự đồng thuận mà người ngoài vẫn chưa biết đến.Xie Chen, người từng phụ trách mô phỏng lái xe tự động trong các công ty như Nvidia, Cruise và Weilai, tin rằng dựa trên lượng dữ liệu hiện tại để đào tạo mô hình quy mô lớn khác nhau, trong 2-3 năm tới, con người sẽ dữ liệu thực sự có thể bị "cạn kiệt". Tuy nhiên, dựa trên các hệ thống và phương pháp chuyên biệt, dữ liệu tổng hợp do AI tạo ra sẽ trở thành nguồn dữ liệu hiệu quả vô tận**. Và các kịch bản sử dụng không giới hạn ở văn bản và hình ảnh.Lượng dữ liệu tổng hợp được yêu cầu bởi các ngành như lái xe tự động và người máy sẽ lớn hơn nhiều so với lượng dữ liệu văn bản.Ba yếu tố của AI là dữ liệu, sức mạnh tính toán và thuật toán. Nguồn dữ liệu đã được giải quyết và mô hình lớn của thuật toán không ngừng phát triển. Áp lực sức mạnh tính toán duy nhất còn lại, tôi tin rằng người sáng lập Nvidia Huang Renxun có thể giải quyết được thông suốt.

Dữ liệu con người sẽ được OpenAI sử dụng hết, rồi sao?

01 Hậu quả của AI “cận huyết”

02 Tại sao mô hình bị sập?

03 Bạn có thực sự không may mắn?

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim