Con đường đến AGI: logic đằng sau ChatGPT, nén là trí thông minh

2023-09-04 08:19:52

Tôi nghĩ, do đó tôi

Tháng trước tại trại mã nữ Shanhaiwu, với tư cách là giảng viên, tôi đã chia sẻ vấn đề “Con đường đến AGI: Nén là trí thông minh” và nhận thấy mọi người rất quan tâm đến AIGC và các mô hình lớn, nhưng nhiều bạn bè lại không hiểu về nó. thời gian. , vì vậy tôi đã viết lời giải thích bằng tiếng địa phương này. Tôi hy vọng nó sẽ hữu ích cho những bạn quan tâm đến AIGC. Nếu bạn cần hiểu sâu hơn, vui lòng tham khảo bài phát biểu quan trọng của Jack Rae (thành viên cốt lõi của nhóm OpenAI) tại Stanford sau khi đọc bài viết này: Compression for AGI (đây cũng là tài liệu tham khảo chính cho bài viết này).

###1 Bắt đầu từ học máy

Machine learning (Học máy) có thể còn xa lạ với những bạn không có nền tảng về máy tính. Nhưng mọi khía cạnh trong cuộc sống của chúng ta đều đã được máy học bao phủ. Ví dụ: khi chúng tôi mở các phần mềm như Zhihu, Douyin và Xiaohongshu, hệ thống sẽ tự động đề xuất nội dung mà chúng tôi có thể quan tâm; khi tôi vừa trò chuyện với bạn tôi về việc mua một chiếc váy của một thương hiệu nào đó, tôi mở Taobao và tìm thấy Đề xuất tìm kiếm đã trở thành thương hiệu; hệ thống mail sẽ giúp chúng ta tự động chặn thư rác; camera giao thông chụp ảnh tài xế đang lái xe để suy luận xem có vi phạm hay không. Tất cả đều được hưởng lợi từ việc học máy.

Vậy chính xác học máy là gì? Học máy lần đầu tiên được đề xuất bởi Bayes trong định lý cùng tên xuất bản năm 1783. Định lý Bayes nói về việc học từ dữ liệu huấn luyện để đưa ra những dự đoán tốt nhất có thể về dữ liệu mới, chưa được nhìn thấy. Nói một cách thẳng thắn, đó là cái mà chúng ta gọi là “rút ra suy luận từ trường hợp này sang trường hợp khác”.

Đó là một môn học cho phép máy tính tự học mà không cần lập trình rõ ràng (Arthur, 1959) và là một lĩnh vực con của trí tuệ nhân tạo. Có một số việc chúng ta có thể thực hiện thông qua lập trình rõ ràng, chẳng hạn như tính 188 lũy thừa 12 hoặc khoảng cách ngắn nhất từ a đến b. Nhưng có một số vấn đề mà việc lập trình rõ ràng không thể giúp chúng ta.

Ví dụ: chúng ta hy vọng máy tính có thể trở thành một kỳ thủ cờ vây xuất sắc. Chúng ta có thể lập trình cho máy tính để máy tính tự chơi cờ. Sau khi chơi 10.000 lần, máy tính có thể quan sát thấy rằng trong một lượt tàn cuộc, tỷ lệ thắng của một thế cờ nhất định lớn hơn bất kỳ vị trí nào khác, đó là nơi chương trình sẽ chọn. Bởi vì sức mạnh tính toán mạnh mẽ của máy tính, nó có thể hoàn thành vô số ván cờ trong một khoảng thời gian ngắn, do đó, nó sẽ ngày càng biết nhiều hơn về cách giành chiến thắng và cuối cùng trở thành một kỳ thủ cờ vua vượt qua con người. Để máy tự học để tìm ra giải pháp tốt nhất là quá trình machine learning, nhưng chính xác thì máy đã học được gì? Đây là một hộp đen, chúng ta chỉ có thể lấy được kết quả đầu ra từ đầu vào.

Các thuật toán học máy có thể được chia thành bốn loại theo phương pháp học: Học có giám sát, Học không giám sát, Học bán giám sát và Học tăng cường. Phương pháp được sử dụng phổ biến nhất là học có giám sát, nhưng ChatGPT đã chọn học tăng cường làm thuật toán cốt lõi.

2 Học tăng cường VS Học có giám sát

Vì học có giám sát là thuật toán chính thống, tại sao OpenAI lại chọn học tăng cường? Ở đây trước tiên chúng tôi giới thiệu với bạn các khái niệm của cả hai.

Học có giám sát đề cập đến một thuật toán học ánh xạ giữa đầu vào và đầu ra từ các ví dụ do người dùng cung cấp. Ví dụ: chúng ta thường thấy một số email tự động bị chặn và cho vào thùng rác, vậy hệ thống đánh giá email đó có phải là thư rác hay không? Điều này sử dụng phương pháp học có giám sát. Đầu tiên, các kỹ sư cần cung cấp cho thuật toán một lượng lớn dữ liệu được gắn nhãn. Trong ví dụ này, một email có thể được sử dụng làm đầu vào và kết quả đầu ra tương ứng có hai loại: thư rác và không phải thư rác (Có/Không , nhãn). Giả sử chúng ta cung cấp 100.000 mẩu dữ liệu, thuật toán sẽ tìm hiểu các đặc điểm của thư rác dựa trên 100.000 mẩu dữ liệu này. Lúc này, khi chúng ta nhập một email mới vào, nó sẽ đánh giá xem email mới có đáp ứng các đặc điểm của thư rác hay không dựa trên mô hình đã được đào tạo trước đó, từ đó quyết định có chặn hay không.

Học tăng cường giống một cơ chế phản hồi khen thưởng hơn. Trong học tăng cường, chúng ta cung cấp đầu vào cho mô hình nhưng không đưa ra câu trả lời chính xác. Mô hình cần tự tạo ra câu trả lời. Sau đó, yêu cầu một người thực đọc câu trả lời được tạo và cho điểm cho câu trả lời (ví dụ: 80 điểm trên thang điểm từ 1-100). Mục tiêu của mô hình là trả lời như thế nào để đạt điểm cao. Một cơ chế khác là để mô hình tạo ra nhiều câu trả lời và cơ chế tính điểm cho mô hình biết câu trả lời nào là tốt nhất. Mục tiêu của mô hình là học cách tạo ra các câu trả lời đạt điểm cao chứ không phải các câu trả lời có điểm thấp. Trong cả hai trường hợp, mô hình học bằng cách tạo ra câu trả lời và nhận phản hồi.

Ngược lại, học có giám sát chỉ cho phép phản hồi tích cực (chúng tôi cung cấp cho mô hình một loạt câu hỏi và câu trả lời đúng), trong khi học tăng cường cho phép phản hồi tiêu cực (mô hình có thể tạo ra các câu trả lời sai và nhận được phản hồi nói rằng “câu trả lời này tệ, lần sau” Hãy ngừng làm việc này"). Như những người thực tế đã khám phá ra trong quá trình học tập, phản hồi tiêu cực cũng quan trọng như phản hồi tích cực. Đây có thể là lý do tại sao OpenAI chọn đào tạo RLHF (nghĩa là đào tạo học tăng cường dựa trên phản hồi của con người).

Hãy suy nghĩ kỹ xem, điều này có giống với cách học của con người không? Khi học, chúng ta cũng tiếp thu được rất nhiều kiến thức, sau đó kiểm tra tình huống học tập, cuối cùng áp dụng kiến thức đã học được vào các tình huống mới (học chuyển giao, cũng là Một của các cơ sở của GPT). Vì vậy, vòng AIGC này cũng được coi là vô cùng gần gũi với AGI (Trí tuệ tổng hợp nhân tạo).

###3 Đường đến AGI

Nói một cách đơn giản, AGI là trí tuệ nhân tạo có trí thông minh ngang bằng con người, hoặc vượt trội hơn con người. Bạn có nghĩ ChatGPT có sở thích đó không? Nhưng làm thế nào để đánh giá được trí thông minh của trí tuệ nhân tạo?

Năm 1980, John Searle đề xuất một thí nghiệm tưởng tượng nổi tiếng “Phòng Trung Quốc”. Quá trình thử nghiệm có thể được mô tả như sau:

Nhốt một người không biết tiếng Trung và chỉ nói tiếng Anh trong phòng kín chỉ có một cửa sổ nhỏ. Trong phòng có sách hướng dẫn với bản dịch tiếng Trung và tiếng Anh. Trong phòng có đủ giấy viết tay và bút chì. Cùng lúc đó, những mảnh giấy viết bằng tiếng Trung được gửi vào phòng qua cửa sổ nhỏ. Những người trong phòng có thể sử dụng cuốn sách của anh ấy để dịch những văn bản này và trả lời bằng tiếng Trung. Mặc dù anh ấy hoàn toàn không nói được tiếng Trung nhưng thông qua quá trình này, những người trong phòng có thể khiến bất cứ ai ở ngoài phòng đều nghĩ rằng anh ấy có thể nói tiếng Trung trôi chảy.

Một cuốn sách hướng dẫn khổng lồ như vậy rõ ràng thể hiện mức độ thông minh rất thấp, bởi vì một khi một người gặp phải những từ vựng không có trong sách, người đó sẽ không thể xử lý được. Nếu chúng ta có thể trích xuất một số ngữ pháp và quy tắc từ lượng lớn dữ liệu, sổ tay có thể trở nên gọn gàng hơn nhưng hệ thống sẽ thông minh hơn (khả năng khái quát hóa tốt hơn).

Sổ tay càng dày thì trí tuệ càng yếu, sổ tay càng mỏng thì trí tuệ càng mạnh. Giống như việc công ty tuyển một người có vẻ có năng lực hơn thì bạn càng phải giải thích ít, năng lực càng yếu thì bạn càng phải giải thích nhiều.

Ví dụ trên là lời giải thích hợp lý về lý do tại sao nén lại là trí thông minh: nếu bạn muốn cải thiện trí thông minh của AI, bạn có thể trích xuất thông tin hiệu quả cần thiết bằng cách khái quát hóa các quy tắc trích xuất. Bằng cách này, bạn có thể hiểu những gì các nhà nghiên cứu NLP thường nói: **Quy trình đào tạo của GPT là nén dữ liệu không mất dữ liệu. **

###4 Nén là thông minh

Vào ngày 28 tháng 2, Jack Rae, nhà nghiên cứu cốt lõi của OpenAI, đã chia sẻ một chủ đề mang tên Compression for AGI khi tham gia phỏng vấn tại Hội thảo MLSys Stanford. Quan điểm cốt lõi của anh là: **Mục tiêu của mô hình cơ bản của AGI là để đạt được thông tin hiệu quả tối đa Nén không mất dữ liệu tối đa. **Và cũng cung cấp phân tích hợp lý về lý do tại sao mục tiêu này hợp lý và cách OpenAI tạo ChatGPT theo mục tiêu này.

Khái quát hóa là quá trình chuyển từ cái đã biết sang cái chưa biết. Như trong hình, vấn đề cốt lõi mà chúng ta quan tâm là làm thế nào để tìm hiểu các mẫu dữ liệu chưa biết và đưa ra dự đoán (màu xám) từ dữ liệu hiện có (màu vàng). Một mô hình có thể dự đoán các phần màu xám càng chính xác thì nó sẽ khái quát hóa càng tốt.

Hãy tưởng tượng một phần mềm máy tính cần dịch tiếng Anh sang tiếng Trung, nếu nó dịch tất cả các cụm từ có thể sang tiếng Trung bằng cách tra từ điển thì chúng ta có thể coi nó là người hiểu tệ nhất về nhiệm vụ dịch thuật, bởi vì bất kỳ cụm từ nào xuất hiện ngoài từ điển sẽ là Không thể dịch được. Nhưng nếu từ điển được chắt lọc thành một bộ quy tắc nhỏ hơn (chẳng hạn như một số ngữ pháp hoặc từ vựng cơ bản) thì nó sẽ có khả năng hiểu tốt hơn, vì vậy chúng ta có thể chấm điểm bộ quy tắc theo mức độ nén của nó. Trên thực tế, nếu chúng ta có thể nén nó đến độ dài mô tả tối thiểu thì chúng ta có thể nói rằng nó có khả năng hiểu rõ nhất về nhiệm vụ dịch thuật.

Đối với một tập dữ liệu D nhất định, chúng ta có thể nén nó bằng mô hình sinh f, trong đó |D| trong hình biểu thị mức nén không mất dữ liệu của tập dữ liệu D và kích thước của nén không mất dữ liệu có thể được biểu thị bằng logarit âm của mô hình sinh được đánh giá trên D Sau đó thêm độ dài mô tả tối thiểu của hàm ước tính.

Vậy làm thế nào để mô hình lớn đạt được khả năng nén không mất dữ liệu? Đầu tiên chúng ta cần hiểu bản chất của GPT. GPT thực sự là một từ điển lớn dựa trên Transformer và bản chất của nó là Dự đoán mã thông báo tiếp theo (lý do bên dưới). Nói một cách đơn giản, đó là dự đoán từ hoặc cụm từ cuối cùng có thể có sau một chuỗi văn bản nhất định. Ví dụ: nếu tôi nói: “Đêm qua bạn ngủ ngon”, trước khi tôi nói xong, bạn sẽ biết khả năng cao là tôi sẽ nói: “Tối qua bạn ngủ ngon chứ?” Sau khi lý luận, tôi sẽ tiếp tục nói “ Được rồi" Quá trình này là lý do sau đây.

Bạn có thể nói rằng rõ ràng những gì được học theo cách này không chỉ là mối quan hệ thống kê bề ngoài giữa các từ? Trí thông minh phát sinh như thế nào?

Giả sử bạn cần truyền một số dữ liệu từ thiên hà Centauri xa xôi về Trái đất, nhưng băng thông rất quý giá, bạn cần sử dụng băng thông tối thiểu để truyền dữ liệu và đảm bảo rằng đầu bên kia có thể khôi phục dữ liệu của bạn mà không bị mất. Bạn có thể sử dụng phương pháp này:

Trước tiên, hãy chuẩn bị một mã đào tạo mô hình ngôn ngữ sẽ tạo ra cùng một mô hình mạng thần kinh mỗi khi bạn chạy nó.

Thứ hai, chạy chương trình huấn luyện trên N mẩu dữ liệu. Tại thời điểm t, lấy ra xác suất của Xt theo tất cả các phân bố xác suất mã thông báo Pt và sử dụng mã hóa số học để chuyển nó thành số thập phân nhị phân, được ghi là Zt. Bằng cách tương tự, thu được danh sách bao gồm Z1, Z2, Z3,…, Zn.

Nếu muốn khôi phục N đoạn dữ liệu này ở đầu bên kia mà không bị mất dữ liệu, bạn chỉ cần chuyển hai nội dung sau: danh sách Z1-Zn và mã đào tạo mô hình ngôn ngữ.

Khi giải mã ở đầu nhận, chúng tôi khởi tạo mạng bằng mã đào tạo nhận được. Tại dấu thời gian t, mô hình sử dụng Pt để giải mã số học Zt để thu được Xt. Cần lưu ý rằng phân phối xác suất mã thông báo Pt tại thời điểm t hoàn toàn nhất quán ở người gửi và người nhận.

Toàn bộ quá trình là quá trình nén dữ liệu không mất dữ liệu, dựa trên mã huấn luyện của mô hình ngôn ngữ, chúng ta nén N phần dữ liệu thành một chuỗi số Z1-Zn, kích thước của mỗi dữ liệu nén là -logp(x). Cần lưu ý rằng trong toàn bộ quá trình, chúng ta không cần gửi toàn bộ mạng lưới thần kinh (hàng trăm trăm tỷ tham số).

Do đó, tổng số bit cần nén tập dữ liệu D bằng mô hình ngôn ngữ có thể được biểu thị bằng công thức sau:

Độ dài mô tả của mô hình dựa trên máy biến áp là khoảng 100kb ~ 1MB (tất cả kích thước mã cần thiết). Các tham số của mô hình không thuộc độ dài mô tả của mô hình.

Chúng tôi thường cảm thấy chatgpt có nhiều sai sót trong các câu hỏi thực tế, chẳng hạn như nếu chúng tôi hỏi anh ấy Liu Cixin đến từ thành phố nào, mô hình vẫn sẽ đưa ra câu trả lời sai. Điều này là do trong quá trình huấn luyện, mô hình ghi nhớ chậm một số dữ liệu huấn luyện và các tham số của mô hình có thể được coi là xấp xỉ việc nén dữ liệu bị mất đối với dữ liệu huấn luyện nên hình ảnh bị mờ". LLM là sự nén không mất dữ liệu của tập dữ liệu gốc, rất cụ thể và có thể được chứng minh một cách chặt chẽ về mặt toán học. Việc nén mất dữ liệu mà Ted Chiang đã đề cập là một phép loại suy văn học rất trừu tượng.

Hãy nhớ bức tranh này, điều chúng ta quan tâm không phải là nội dung bên trong vòng tròn màu vàng mà là phần màu xám bên ngoài, bởi vì chúng ta quan tâm đến việc sử dụng ít nội dung hơn để thu được nhiều kiến thức hơn, tức là khả năng khái quát hóa. Khái quát hóa là thông minh so với tham số heap!

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích