Дорога к AGI: логика ChatGPT, сжатие — это интеллект

2023-09-04 08:19:52

Я мыслю, следовательно, я

В прошлом месяце в лагере для женщин в Шаньхайу я в качестве лектора поделилась темой «Путь к AGI: сжатие — это интеллект». Я обнаружила, что все очень интересовались AIGC и большими моделями, но многие друзья не поняли этого в время. , поэтому я написал это народное объяснение. Я надеюсь, что это может быть полезно тем, кто интересуется AIGC. Если вам нужно более глубокое понимание, обратитесь к Джеку Рэю (основному члену команды OpenAI) в Стэнфорде после прочтения основной речи: «Сжатие для AGI» (это также основная ссылка в этой статье).

1 Начинаем с машинного обучения

Машинное обучение (Машинное обучение) может быть незнакомо друзьям, не имеющим опыта работы с компьютером. Но каждый аспект нашей жизни уже охвачен машинным обучением. Например, когда мы открываем такие программы, как Zhihu, Douyin и Xiaohongshu, система автоматически рекомендует контент, который может нас заинтересовать; когда я только что болтал с другом о покупке платья определенной марки, я открыл Taobao и нашел Рекомендации по поиску стали брендом; почтовая система поможет нам автоматически блокировать спам; камеры дорожного движения фотографируют водителей, чтобы сделать вывод о нарушениях. Все они выигрывают от машинного обучения.

Так что же такое машинное обучение? Самая ранняя теория машинного обучения была предложена Байесом в одноименной теореме, опубликованной в 1783 году. Теорема Байеса обучается на обучающих данных, чтобы сделать наилучшие прогнозы на основе новых, невидимых данных. Грубо говоря, это то, что мы говорим «по аналогии».

Это дисциплина, позволяющая компьютерам обучаться самостоятельно, без явного программирования (Артур, 1959), и это подобласть искусственного интеллекта. Некоторые вещи мы можем сделать с помощью явного программирования, например вычисление 188 в 12-й степени или кратчайшего расстояния от a до b. Но есть некоторые проблемы, с которыми явное программирование нам не поможет.

Например, мы надеемся, что компьютер станет отличным игроком в го. Мы можем запрограммировать компьютер так, чтобы он играл в шахматы сам с собой. После 10 000 игр компьютер сможет обнаружить, что в эндшпиле процент выигрышей в определенной позиции больше, чем в другом месте, программа выберет именно это. Благодаря мощной вычислительной мощности компьютера он может завершить бесчисленное количество игр за короткий период времени, поэтому он будет все больше и больше знать, как побеждать, и в конечном итоге станет шахматистом, превосходящим людей. Позволить машине самостоятельно учиться находить лучшее решение — это процесс машинного обучения, но чему именно научилась машина? Это черный ящик, из входа мы можем получить только один выход.

Алгоритмы машинного обучения можно разделить на четыре типа в зависимости от методов обучения: обучение с учителем, обучение без учителя, обучение с полуконтролем и обучение с подкреплением. Наиболее часто используемым является обучение с учителем, но ChatGPT выбрал обучение с подкреплением в качестве основного алгоритма.

2 Обучение с подкреплением и обучение с учителем

Поскольку обучение с учителем является основным алгоритмом, почему OpenAI выбрала обучение с подкреплением? Здесь мы впервые представляем понятия этих двух факторов.

Обучение с учителем относится к алгоритмам, которые изучают сопоставления между входными и выходными данными, обучаясь на примерах, предоставленных пользователем. Например, мы часто обнаруживаем, что некоторые электронные письма автоматически блокируются и отправляются в корзину. Так как же система определяет, является ли письмо спамом? При этом используется контролируемое обучение. Во-первых, инженерам необходимо передать алгоритму большой объем помеченных данных. В этом примере электронное письмо может использоваться в качестве входных данных, а соответствующие выходные результаты бывают двух типов: спам и не спам (Да / Нет , то есть метка). Предположим, мы передаем 100 000 фрагментов данных, алгоритм изучит характеристики спама на основе этих 100 000 фрагментов данных. В настоящее время, когда мы вводим в него новое электронное письмо, он на основе ранее обученной модели оценивает, соответствует ли новое электронное письмо характеристикам спама, тем самым решая, следует ли его перехватывать.

Обучение с подкреплением — это скорее механизм вознаграждения и обратной связи. При обучении с подкреплением мы вносим данные в модель, но не даем правильного ответа. Модель должна сама сгенерировать ответ. Затем попросите реального человека прочитать сгенерированный ответ и дать оценку ответу (например, 80 баллов по шкале от 1 до 100). Цель модели — как ответить, чтобы получить высокий балл. Другой механизм заключается в том, что модель генерирует несколько ответов, а механизм оценки сообщает модели, какой ответ является лучшим. Цель модели — научиться генерировать ответы с высокой оценкой, а не с низкой оценкой. В обоих случаях модель учится, генерируя ответы и получая обратную связь.

Напротив, обучение с учителем допускает только положительную обратную связь (мы задаем модели ряд вопросов и правильные ответы на них), тогда как обучение с подкреплением допускает отрицательную обратную связь (модель может генерировать неправильные ответы и получать обратную связь, говорящую: «Этот ответ нехороший, в следующий раз Больше так не делай»). Как обнаружили реальные люди в процессе обучения, отрицательная обратная связь так же важна, как и положительная. Вероятно, это причина, по которой OpenAI выбрала обучение RLHF (то есть обучение с подкреплением, основанное на обратной связи с людьми).

Подумайте внимательно, очень ли это похоже на то, как учатся люди? Когда мы учимся, мы также приобретаем большой объем знаний, затем сдаем экзамены, чтобы проверить ситуацию обучения, и, наконец, применяем полученные знания в новых сценариях (перенос обучения, что также является одной из основ GPT). Поэтому этот раунд AIGC также считается бесконечно близким к AGI (Общему искусственному интеллекту).

3 Дорога к AGI

Проще говоря, AGI — это искусственный интеллект, который имеет тот же интеллект, что и человек, или превосходит его. Как вы думаете, у ChatGPT такой вкус? Но как судить об интеллекте искусственного интеллекта?

В 1980 году Джон Сирл предложил знаменитый мысленный эксперимент «Китайская комната». Экспериментальный процесс можно описать следующим образом:

Заприте человека, который не знает китайского языка и говорит только по-английски, в закрытой комнате с небольшим окном. В номере есть инструкция с китайским и английским переводами. В комнате достаточно рукописной бумаги и карандашей. В то же время в комнату через маленькое окошко проносились бумажки, написанные на китайском языке. Люди в комнате могут использовать его книгу, чтобы переводить слова и отвечать на китайский язык. Хотя он вообще не говорит по-китайски, посредством этого процесса человек в комнате может заставить любого за пределами комнаты думать, что он свободно говорит по-китайски.

Такое огромное руководство, очевидно, представляет собой очень низкий уровень интеллекта, потому что, столкнувшись с лексикой, которой нет в руководстве, человек не сможет с ней справиться. Если мы сможем извлечь некоторый синтаксис и правила из больших объемов данных, руководство может стать более упорядоченным, но система будет иметь более высокий уровень интеллекта (лучшую способность к обобщению).

Чем толще руководство, тем слабее интеллект; чем тоньше руководство, тем сильнее интеллект. Это как если бы компания наняла человека, который кажется более способным, чем меньше вам нужно объяснять, а чем слабее способности, тем больше вам нужно объяснять.

Приведенный выше пример хорошо объясняет, почему сжатие является интеллектуальным: если вы хотите улучшить интеллект ИИ, вы можете извлечь необходимую эффективную информацию, обобщив правила извлечения. Таким образом, вы можете понять, что часто говорят исследователи НЛП: **Процесс обучения GPT представляет собой сжатие данных без потерь. **

4 Сжатие — это интеллект

28 февраля Джек Рэй, основной разработчик OpenAI, во время интервью на Стэнфордском семинаре MLSys поделился темой под названием «Сжатие для AGI». Основная точка зрения такова: **Цель базовой модели AGI — максимизировать эффективность Информация Максимальное сжатие без потерь. **А также приводится логический анализ того, почему эта цель является разумной и как OpenAI создала ChatGPT для этой цели.

Обобщение – это процесс экстраполяции известного к неизвестному. Как показано на рисунке, основная проблема, которая нас волнует, — это как изучить закономерности неизвестных данных и делать прогнозы (серый цвет) на основе существующих данных (желтый цвет). Чем точнее модель может предсказывать серые части, тем сильнее ее способность к обобщению.

Представьте себе компьютерную программу, которой нужно перевести с английского на китайский. Если она переводит все возможные фразы на китайский, просматривая словарь, то мы можем считать, что она хуже всего понимает задачу перевода, потому что любая фраза, которая появляется за пределами словаря, будет быть Ни то, ни другое невозможно перевести. Но если словарь разбит на меньший набор правил (например, некоторую грамматику или базовый словарь), то его способность к пониманию будет лучше, поэтому мы сможем оценить набор правил в зависимости от того, насколько он сжат. Фактически, если мы сможем сжать его до минимальной длины описания, то можно сказать, что он лучше всего понимает задачу перевода.

Для данного набора данных D мы можем сжать его с помощью генеративной модели f. На рисунке | D | представляет сжатие без потерь набора данных D. Размер сжатия без потерь может быть выражен как отрицательный логарифм генеративной модели оценивается на D. Затем добавьте минимальную длину описания оцениваемой функции.

Так как же большие модели достигают сжатия без потерь? Нам нужно сначала понять природу GPT. GPT на самом деле представляет собой большой словарь, основанный на Transformer, который, по сути, представляет собой прогнозирование следующего токена (обоснование ниже). Проще говоря, это предсказать последнее слово или фразу, которая может появиться после заданной текстовой последовательности. Например, если я скажу: «Ты хорошо спал прошлой ночью», прежде чем я закончу говорить, вы будете знать, что я с большой вероятностью скажу: «Вы хорошо спали прошлой ночью?» После рассуждений я продолжу говорить» Хорошо» Процесс заключается в следующем рассуждении.

Вы могли бы сказать, что очевидно, что таким образом изучается не просто поверхностная статистическая связь между словами? Как возник интеллект?

Предположим, вам нужно передать некоторые данные из далекой галактики Центавра обратно на Землю, но пропускная способность очень важна. Вам необходимо использовать минимальную пропускную способность для передачи данных и гарантировать, что другой конец сможет восстановить ваши данные без потерь. Вы можете использовать этот подход:

Сначала подготовьте код обучения языковой модели, который будет генерировать одну и ту же модель нейронной сети при каждом запуске.

Во-вторых, запустите программу обучения на фрагментах данных N. В момент времени t извлеките вероятность Xt при всех распределениях вероятностей токенов Pt и используйте арифметическое кодирование, чтобы преобразовать ее в двоично-десятичное число, записанное как Zt. По аналогии получается список, состоящий из Z1, Z2, Z3,…, Zn.

Если вы хотите восстановить эти N фрагментов данных без потерь на другом конце, вам нужно передать только следующие два содержимого: список Z1-Zn и код обучения языковой модели.

При декодировании на приемной стороне мы инициализируем сеть полученными обучающими кодами. В момент времени t модель использует Pt для выполнения арифметического декодирования Zt для получения Xt. Следует отметить, что распределение вероятности токена Pt в момент времени t совершенно одинаково на отправляющей и принимающей сторонах.

Весь процесс представляет собой процесс сжатия данных без потерь.На основе обучающего кода языковой модели мы сжимаем N фрагментов данных в строку чисел Z1-Zn.Размер каждых сжатых данных равен -logp(x). Следует отметить, что во всем процессе нам не нужно отправлять всю нейронную сеть (сотни сотен миллиардов параметров).

Следовательно, общее количество бит для сжатия набора данных D с использованием языковой модели можно выразить следующей формулой:

Длина описания модели на основе трансформатора составляет примерно от 100 КБ до 1 МБ (весь необходимый размер кода). Параметры модели не относятся к длине описания модели.

Нам часто кажется, что в чате полно ошибок по фактическим вопросам. Например, на вопрос, из какого города Лю Цысинь, модель все равно будет давать неправильные ответы. Это связано с тем, что во время процесса обучения модель медленно запоминает некоторые данные обучения. Параметры модели можно приблизительно рассматривать как сжатие данных с потерями для обучающих данных. Это также то, что Тед Цзян сказал в «ChatGPT — это весь текст на Интернет. «размытая картинка». LLM — это сжатие исходного набора данных без потерь, что можно строго доказать математически. Сжатие с потерями, о котором сказал Тед Чан, — это очень абстрактная литературная аналогия.

Помните эту картинку: нас волнует не содержимое внутри желтого круга, а серая часть снаружи, потому что нас волнует, как использовать меньше контента, чтобы получить больше знаний, то есть способность к обобщению. Обобщение — это интеллект по сравнению с кучей параметров!

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков