Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Человеческие данные будут израсходованы OpenAI, что дальше?
«Больше, чем больше» (Bigger than big) — это реклама Apple того года, которая используется для описания самой горячей модели большого языка в области ИИ. Кажется, в этом нет ничего плохого.
От миллиардов до десятков миллиардов и сотен миллиардов параметры большой модели постепенно становились дикими, соответственно объем данных, используемых для обучения ИИ, также увеличивался в геометрической прогрессии.
Взяв в качестве примера GPT OpenAI, с GPT-1 до GPT-3, его набор обучающих данных вырос в геометрической прогрессии с 4,5 ГБ до 570 ГБ.
На конференции Data+AI, проведенной Databricks недавно, Марк Андриссен, основатель a16z, полагал, что массивные данные, накопленные Интернетом за последние два десятилетия, являются важной причиной подъема этой новой волны ИИ, потому что первый предоставляет последнему полезные обучающие данные.
Однако, даже если пользователи сети оставят в Интернете много полезных или бесполезных данных, для обучения ИИ этих данных может не хватить.
Документ, опубликованный Epoch, организацией, занимающейся исследованиями и прогнозированием искусственного интеллекта, прогнозирует, что высококачественные текстовые данные будут исчерпаны в период с 2023 по 2027 год.
Хотя исследовательская группа признает наличие серьезных ограничений в методе анализа и высокую неточность модели, трудно отрицать, что скорость, с которой ИИ потребляет наборы данных, ужасает.
Когда «человеческие» данные закончатся, обучение ИИ неизбежно будет использовать контент, созданный самим ИИ. Однако такая «внутренняя петля» создаст большие проблемы.
Не так давно исследователи из Кембриджского, Оксфордского, Университета Торонто и других университетов опубликовали статьи, в которых указывалось, что использование контента, созданного ИИ, в качестве обучающего ИИ приведет к краху новой модели. **
Итак, в чем причина сбоя, вызванного «сгенерированными данными» для обучения ИИ? Есть ли помощь?
01 Последствия «инбридинга» ИИ
В статье под названием «Проклятие рекурсии: обучение с помощью сгенерированных данных заставляет забыть о моделях» исследователи отмечают, что «крах модели» — это вырожденный процесс моделей на протяжении нескольких поколений**.
Данные, сгенерированные моделями предыдущего поколения, загрязнят модели следующего поколения.После нескольких поколений «наследования» моделей они будут неправильно воспринимать мир.
Схлопывание модели происходит в два этапа:
Исследователи сначала обучили с нуля модели GMM (модель гауссовой смеси) и VAE (переменный автоэнкодер). Взяв в качестве примера GMM, крайняя левая часть рисунка ниже представляет собой нормальное распределение исходных данных.
Как видите, модель изначально очень хорошо соответствует данным. К 50-й итерации базовое распределение данных стало восприниматься неправильно. Когда итерация достигает 2000 раз, модель сошлась к очень маленькой точке, что означает, что модель начинает стабильно выдавать неверные ответы.
Чтобы проверить влияние предварительного обучения на экспериментальные результаты, исследователи провели эксперименты с 125-миллионным параметром LLM (Large Language Model) OPT-125m, разработанным Meta, Набор данных взят из wikitext2 из Википедии.
В отличие от небольших моделей, таких как GMM и VAE, стоимость обучения LLM с нуля очень высока, поэтому все они проходят предварительное обучение. Результаты эксперимента следующие:
Видно, что к моменту выхода модели 9-го поколения содержание вывода стало совершенно непонятным.
Илья Шумайлов, один из авторов статьи, сказал, что со временем ошибки в сгенерированных ИИ данных накапливаются, и основные модели, обученные на этих данных, вырабатывают еще более искаженное представление о реальности.
02 Почему модель вылетает?
Основная причина «краха модели» заключается в том, что ИИ не является настоящим интеллектом.За его способностью аппроксимировать «интеллект» на самом деле стоит статистический метод, основанный на большом количестве данных.
По сути, все алгоритмы машинного обучения без присмотра следуют простой схеме: По ряду данных обучайте модель, которая может описывать законы этих данных.
В этом процессе данные с более высокой вероятностью в обучающей выборке с большей вероятностью будут оценены моделью, а данные с более низкой вероятностью будут недооценены моделью.
Например, предположим, что нам нужно записать результаты 100 бросков костей, чтобы вычислить вероятность каждой грани. Теоретически вероятность появления каждого лица одинакова. В реальной жизни из-за небольшого размера выборки случаев 3 и 4 может быть больше. Но для модели данные, которые она изучает, заключаются в том, что 3 и 4 имеют более высокую вероятность появления, поэтому она имеет тенденцию генерировать больше результатов 3 и 4.
Другой вторичной причиной является ошибка аппроксимации функции. Это также легко понять, потому что реальные функции часто очень сложны.В практических приложениях часто используются упрощенные функции для аппроксимации реальных функций, что приводит к ошибкам.
03 Вам действительно не повезло?
Волноваться!
Итак, при наличии все меньше и меньше человеческих данных, неужели нет шансов на обучение ИИ?
Нет, есть еще способы решить проблему исчерпания данных для обучения ИИ:
Изоляция данных
По мере того, как ИИ становится все более и более мощным, все больше и больше людей начинают использовать ИИ, чтобы помочь себе в своей работе, и AIGC в Интернете стремительно растет, и становится все труднее найти «чистые наборы данных о людях».
Дафна Ипполито, старший научный сотрудник Google Brain, исследовательского отдела глубокого обучения Google, сказала, что в будущем будет все труднее находить высококачественные гарантированные обучающие данные без искусственного интеллекта.
Это похоже на предка человека, страдающего генетическим заболеванием высокого риска, но обладающего чрезвычайно сильной репродуктивной способностью. За короткий промежуток времени он размножил своих потомков в каждом уголке земли. Затем в какой-то момент вспыхивает генетическое заболевание, и все человечество вымирает.
Одним из подходов, предложенных исследовательской группой для решения проблемы «краха модели», является «преимущество первопроходца», то есть сохранение доступа к чистым искусственно сгенерированным источникам данных, отделяющее от него AIGC.
В то же время для этого требуется, чтобы многие сообщества и компании объединили свои усилия, чтобы защитить данные человека от загрязнения AIGC.
Тем не менее, нехватка человеческих данных означает, что для этого есть прибыльные возможности, и некоторые компании уже делают это. Reddit заявил, что это значительно повысит стоимость доступа к его API. Руководители компании заявили, что изменения были (частично) ответом на кражу данных компаниями, занимающимися искусственным интеллектом. «База данных Reddit действительно ценна, — сказал The New York Times основатель и генеральный директор Reddit Стив Хаффман, — но нам не нужно бесплатно раздавать всю эту ценность некоторым из крупнейших компаний мира».
Синтетические данные
В то же время, профессионально основанный на данных, сгенерированных ИИ, он уже эффективно используется в обучении ИИ. По мнению некоторых практиков, теперь беспокойство о том, что данные, сгенерированные ИИ, приведут к краху модели, является чем-то вроде «заголовка».
Се Ченгуанг, основатель Light Wheel Intelligence, рассказал Geek Park, что, как упоминалось в зарубежных статьях, использование данных, сгенерированных ИИ, для обучения моделей ИИ приводит к сбоям, а экспериментальные методы необъективны. Даже человеческие данные можно разделить на пригодные для использования и непригодные для использования, и эксперименты, упомянутые в документе, непосредственно используются для обучения без дискриминации, а не предназначены для обучения в качестве данных после проверки качества и оценки эффективности, Очевидно, что существует вероятность сбоя модели.
Се Чен сообщил, что на самом деле OpenAI GPT-4 использует для обучения большое количество данных, созданных моделью предыдущего поколения GPT-3.5. Сэм Альтман также заявил в недавнем интервью, что синтетические данные — это эффективный способ решить проблему нехватки больших модельных данных. Ключевым моментом является то, что существует полная система, позволяющая различать, какие данные, сгенерированные ИИ, можно использовать, а какие нет, и постоянно давать обратную связь на основе эффекта обученной модели — это один из уникальных приемов OpenAI, которым можно гордиться. AI arena **, эта компания не так проста, как собрать больше денег и купить больше вычислительной мощности.
В индустрии ИИ использование синтетических данных для обучения моделей уже стало консенсусом, который еще не известен посторонним.
Се Чен, ранее отвечавший за моделирование автономного вождения в таких компаниях, как Nvidia, Cruise и Weilai, считает, что, судя по текущему объему данных для обучения различных крупномасштабных моделей, в ближайшие 2-3 года человек данные действительно могут быть «исчерпаны», однако на основе специализированных систем и методов синтетические данные, генерируемые ИИ, станут неиссякаемым источником эффективных данных**. И сценарии использования не ограничиваются текстом и картинками: объем синтетических данных, необходимых для таких отраслей, как автономное вождение и робототехника, будет намного больше, чем объем текстовых данных.
Три элемента ИИ - это данные, вычислительная мощность и алгоритмы.Источник данных установлен, и большая модель алгоритма постоянно развивается.Единственное оставшееся давление вычислительной мощности, я считаю, что основатель Nvidia Хуан Ренсюнь может решить эту проблему. плавно.