Шлях до AGI: логіка ChatGPT, стиснення – це інтелект

PANews · 2023-09-04T08:19:52+00:00

Що саме таке машинне навчання? Найперша теорія машинного навчання була запропонована Байєсом у однойменній теоремі, опублікованій у 1783 році. Теорема Байєса навчається на навчальних даних, щоб робити найкращі прогнози на основі нових, невідомих даних. Відверто кажучи, це те, що ми говоримо «за аналогією».

PANews

2023-09-04 08:19:52

Я думаю, отже я існую

Минулого місяця в жіночому кодовому таборі Shanhaiwu, як лектор, я поділився випуском «Шлях до AGI: стиснення — це інтелект» і виявив, що всі були дуже зацікавлені в AIGC і великих моделях, але багато друзів не розуміли цього на час. , тому я написав це пояснення народною мовою. Сподіваюся, це буде корисно для вас, хто цікавиться AIGC. Якщо вам потрібне більш глибоке розуміння, зверніться до основної промови Джека Рей (основного члена команди OpenAI) у Стенфорді після прочитання цієї статті: Стиснення для AGI (це також основна довідка для цієї статті).

1 Почнемо з машинного навчання

Машинне навчання може бути незнайомим для тих, хто не має досвіду роботи з комп’ютером. Але всі аспекти нашого життя були охоплені машинним навчанням. Наприклад, коли ми відкриваємо Zhihu, Douyin, Xiaohongshu та інше програмне забезпечення, система автоматично рекомендуватиме вміст, який може нас зацікавити; коли я просто спілкувався з друзями про покупку спідниці певної марки, я відкрив Taobao і виявив, що Пошук рекомендації стали брендом; системи електронної пошти автоматично блокуватимуть для нас спам; камери дорожнього руху фотографують водіїв, щоб визначити, чи є порушення. Усе це виграє від машинного навчання.

Отже, що ж таке машинне навчання? Машинне навчання вперше було запропоновано Байєсом у однойменній теоремі, опублікованій у 1783 році. Теорема Байєса полягає в тому, щоб вивчати навчальні дані, щоб робити найкращі прогнози на основі нових, невідомих даних. Відверто кажучи, це те, що ми називаємо «виведення висновків з одного випадку до інших випадків».

Це дисципліна, яка дозволяє комп’ютерам навчатися самостійно без явного програмування (Артур, 1959), і є підсферою штучного інтелекту. Деякі речі ми можемо зробити за допомогою явного програмування, наприклад, обчислити 188 у 12-му степені або найкоротшу відстань від a до b. Але є деякі проблеми, з якими явне програмування не може нам допомогти.

Наприклад, ми сподіваємося, що комп’ютер може стати чудовим гравцем у го. Ми можемо запрограмувати комп’ютер так, щоб комп’ютер міг сам із собою грати в шахи. Після гри 10 000 разів комп’ютер може спостерігати, що в ендшпілі швидкість виграшу фігури у певній позиції більше, ніж в іншому місці, програма вибере саме це місце. Завдяки потужній обчислювальній потужності комп’ютера він може виконати незліченну кількість шахових партій за короткий проміжок часу, тож він усе більше знатиме, як перемагати, і зрештою стане шахістом, який перевершить людей. Дозволити машині самостійно вчитися знаходити найкраще рішення — це процес машинного навчання, але чого саме навчилася машина? Це чорний ящик, ми можемо отримати лише один вихід із входу.

Алгоритми машинного навчання можна розділити на чотири типи відповідно до методів навчання: контрольоване навчання, неконтрольоване навчання, напівконтрольоване навчання та навчання з підкріпленням. Найбільш часто використовуваним є контрольоване навчання, але ChatGPT вибрав навчання з підкріпленням своїм основним алгоритмом.

2 Навчання з підкріпленням проти навчання під контролем

Оскільки контрольоване навчання є основним алгоритмом, чому OpenAI вибрав навчання з підкріпленням? Тут ми спочатку познайомимо вас з двома поняттями.

Контрольоване навчання відноситься до алгоритму, який вивчає відображення між входами та виходами на прикладах, наданих користувачем. Наприклад, ми часто виявляємо, що деякі електронні листи автоматично блокуються та потрапляють у кошик. Тож як система визначає, чи електронний лист є спамом? Для цього використовується контрольоване навчання. По-перше, інженерам потрібно передати алгоритму велику кількість позначених даних. У цьому прикладі електронний лист можна використовувати як вхідні дані, і є два типи відповідних вихідних результатів: спам, а не спам електронні листи (Так/Ні, мітка). Припустімо, ми передаємо 100 000 фрагментів даних, алгоритм вивчатиме характеристики спаму на основі цих 100 000 фрагментів даних. У цей час, коли ми вводимо в нього абсолютно новий електронний лист, він оцінює, чи відповідає новий електронний лист характеристикам спаму відповідно до попередньо навченої моделі, щоб вирішити, чи перехоплювати його.

Навчання з підкріпленням більше схоже на механізм зворотного зв’язку винагороди. У навчанні з підкріпленням ми надаємо вхідні дані для моделі, але не правильні відповіді. Модель повинна сама згенерувати відповідь. Потім попросіть реальну людину прочитати згенеровану відповідь і оцінити відповідь (наприклад, 1-100 – це 80 балів). Мета моделі полягає в тому, як відповісти, щоб отримати високий бал. Інший механізм полягає в тому, що модель генерує кілька відповідей, а механізм підрахунку балів повідомляє моделі, яка відповідь найкраща. Мета моделі — навчитися генерувати відповіді з високими, а не низькими балами. В обох випадках модель навчається, генеруючи відповіді та отримуючи зворотний зв’язок.

Навпаки, контрольоване навчання дозволяє лише позитивний зворотний зв’язок (ми надаємо моделі низку запитань і правильні відповіді на них), тоді як навчання з підкріпленням допускає негативний зворотний зв’язок (модель може генерувати неправильні відповіді та отримувати зворотний зв’язок, який говорить: «ця відповідь погана, наступного разу»). Припиніть це робити»). Як реальні люди виявили в процесі навчання, негативний відгук так само важливий, як і позитивний. Ймовірно, це причина, чому OpenAI вибрала навчання RLHF (тобто навчання з підкріпленням на основі відгуків людини).

Уважно подумайте, чи це дуже схоже на те, як навчаються люди? Коли ми навчаємося, ми також отримуємо велику кількість знань, потім складаємо іспити, щоб перевірити навчальну ситуацію, і, нарешті, застосовуємо отримані знання до нових сценаріїв (перенесення навчання, яка також є однією з основ GPT). Тому цей раунд AIGC також вважається нескінченно близьким до AGI (Artificial General Intelligence).

3 Дорога до AGI

Простіше кажучи, AGI — це штучний інтелект, який має такий самий інтелект, як і людина, або перевершує людину. Як ви думаєте, ChatGPT вже має такий смак? Але як судити про інтелект штучного інтелекту?

У 1980 році Джон Серл запропонував відомий мисленнєвий експеримент «Китайська кімната». Експериментальний процес можна виразити наступним чином:

Замкніть людину, яка не знає китайської та розмовляє лише англійською, у закритій кімнаті лише з маленьким вікном. У кімнаті є посібник з китайським та англійським перекладами. У кімнаті достатньо рукописного паперу та олівців. Одночасно через маленьке віконце в кімнату потрапили папірці, написані китайською мовою. Люди в кімнаті можуть використовувати його книгу, щоб перекладати слова та відповідати китайською. Хоча він взагалі не розмовляє китайською, завдяки цьому процесу людина в кімнаті може змусити будь-кого поза кімнатою подумати, що вона вільно розмовляє китайською.

Такий величезний посібник, очевидно, є дуже низьким рівнем інтелекту, тому що як тільки людина стикається з лексикою, якої немає в посібнику, людина не зможе з нею впоратися. Якщо ми зможемо витягнути певний синтаксис і правила з великої кількості даних, посібник може стати більш оптимізованим, але система матиме вищий рівень інтелекту (краща здатність до узагальнення).

Чим товщі мануал, тим слабший інтелект; чим тонший мануал, тим сильніший інтелект. Це як коли компанія наймає людину, чим більш здібний ти, тим менше тобі потрібно пояснювати; чим менш здібний, тим більше тобі потрібно пояснювати.

Наведений вище приклад добре пояснює, чому стиснення – це інтелект: якщо ви хочете покращити інтелект ШІ, ви можете отримати необхідну ефективну інформацію, узагальнивши правила вилучення. Таким чином ви можете зрозуміти, що часто говорять дослідники НЛП: **Процес навчання GPT — це стиснення даних без втрат. **

4 Стиснення - це інтелект

28 лютого під час інтерв’ю на Стенфордському семінарі MLSys Джек Рей, головний дослідник OpenAI, поділився темою під назвою «Стиснення для AGI». Його основна точка зору така: **Мета базової моделі AGI полягає в для досягнення максимально ефективної інформації. Максимальне стиснення без втрат. **Водночас він дає логічний аналіз того, чому ця мета є розумною, і як OpenAI створив ChatGPT для цієї мети.

Узагальнення - це процес просування від відомого до невідомого. Як показано на малюнку, основна проблема, яка нас хвилює, полягає в тому, як дізнатися шаблони невідомих даних і зробити прогнози (сірий колір) на основі наявних даних (жовтий). Чим точніше модель може передбачити сірі частини, тим сильніша її здатність до узагальнення.

Уявіть собі, що комп’ютерне програмне забезпечення має перекласти англійську на китайську мову. Якщо воно перекладає всі можливі фрази на китайську мову, шукаючи словник, тоді ми можемо вважати, що воно гірше розуміє завдання перекладу, тому що будь-яка фраза, яка з’являється поза словником, ні можна було б перекласти. Але якщо словник зведено до меншого набору правил (наприклад, певної граматики чи основного словника), тоді його буде краще зрозуміло, тож ми зможемо оцінити його на основі того, наскільки стиснутий набір правил. Фактично, якщо ми можемо стиснути його до мінімальної довжини опису, тоді можна сказати, що він найкраще розуміє завдання перекладу.

Для заданого набору даних D ми можемо стиснути його за допомогою генеративної моделі f. На малюнку | D | представлено стиснення без втрат набору даних D. Розмір стиснення без втрат можна виразити як від’ємний логарифм генеративної моделі оцінюється на D. Потім додайте мінімальну довжину опису оцінюваної функції.

Отже, як великі моделі досягають стиснення без втрат? Спочатку нам потрібно зрозуміти природу GPT. GPT – це фактично великий словник на основі Transformer, який, по суті, є Next Token Prediction (обґрунтування нижче). Простіше кажучи, це передбачити останнє слово чи фразу, яка може з’явитися після певної текстової послідовності. Наприклад, якщо я скажу: «Чи добре ти спав минулої ночі?» до того, як я закінчу говорити, ти знатимеш, що я, швидше за все, скажу: «Ти добре спав минулої ночі?» Ви можете зробити висновок, що я продовжу говорити: «Добре?» Процес полягає в наступному міркуванні.

Ви можете сказати, що очевидно, що те, що вивчається таким чином, не є просто поверхневим статистичним зв’язком між словами? Як виник інтелект?

Припустімо, вам потрібно передати деякі дані з далекої галактики Центавра назад на Землю, але пропускна здатність дуже цінна. Вам потрібно використовувати мінімальну пропускну здатність для передачі даних і переконатися, що інша сторона може відновити ваші дані без втрат. Ви можете використовувати цей метод:

Спочатку підготуйте навчальний код мовної моделі, який генеруватиме ту саму модель нейронної мережі щоразу, коли ви її запускаєте.

По-друге, запустіть навчальну програму на N фрагментах даних.У момент часу t вийміть імовірність Xt за всіма розподілами ймовірностей маркерів Pt і використовуйте арифметичне кодування, щоб перетворити її в двійкову десяткову систему, записану як Zt. За аналогією виходить список, що складається з Z1, Z2, Z3,…, Zn.

Якщо ви хочете відновити ці N фрагментів даних без втрат на іншому кінці, вам потрібно лише передати наступні два вмісту: список Z1-Zn і навчальний код мовної моделі.

При декодуванні на приймальному кінці ми ініціалізуємо мережу отриманими навчальними кодами. У мітку часу t модель використовує Pt для виконання арифметичного декодування Zt для отримання Xt. Слід зазначити, що розподіл ймовірності маркера Pt у момент часу t є абсолютно однаковим на стороні відправника та стороні приймання.

Увесь процес є процесом стиснення даних без втрат. На основі навчального коду мовної моделі ми стискаємо N фрагментів даних у ряд чисел Z1-Zn, а розмір кожного стисненого даних становить -logp(x). Слід зазначити, що в усьому процесі нам не потрібно передавати всю нейронну мережу (сотні сотень мільярдів параметрів).

Таким чином, загальну кількість бітів, що використовуються для стиснення набору даних D за допомогою мовної моделі, можна виразити такою формулою:

Довжина опису моделі на основі трансформатора становить приблизно 100 Кб ~ 1 МБ (увесь необхідний розмір коду). Параметри моделі не належать до довжини опису моделі.

Нам часто здається, що chatgpt повний помилок у фактичних питаннях. Наприклад, якщо ми запитаємо його, з якого міста Лю Цісінь, модель все одно дасть неправильну відповідь. Це пов’язано з тим, що під час процесу навчання модель повільно запам’ятовує деякі навчальні дані, і параметри моделі можна приблизно розглядати як стиснення даних із втратою для навчальних даних. Означає «розмите зображення». LLM — це стиснення вихідного набору даних без втрат, яке є дуже специфічним і може бути суворо доведено математично. Стиснення з втратами, про яке згадував Тед Чіанг, є дуже абстрактною літературною аналогією.

Ви все ще пам’ятаєте цю картинку? Нас цікавить не вміст усередині жовтого кола, а сіра частина зовні, тому що ми дбаємо про те, як використовувати менше вмісту, щоб отримати більше знань, тобто здатність до узагальнення. Порівняно з параметрами купи, узагальнення розумне!

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків