Прорыв в способности больших моделей к работе с длинными текстами: скачок с 4000 токенов до 400000 токенов.

robot
Генерация тезисов в процессе

Повышение способности больших моделей к работе с длинными текстами: от LLM к эпохе Long LLM

Технология больших моделей развивается с потрясающей скоростью, способность обработки текста выросла с 4000 токенов до 400000 токенов. Способность работать с длинными текстами, похоже, стала новым стандартом для производителей больших моделей.

За границей OpenAI несколько раз обновлял GPT-4, увеличив длину контекста до 32 000 токенов. Anthropic даже увеличил длину контекста своей модели Claude до 100 000 токенов. LongLLaMA расширил длину контекста до 256 000 токенов и даже больше.

В стране стартап, занимающийся крупными моделями, выпустил продукт интеллектуального помощника, который поддерживает ввод 200 000 китайских иероглифов, что соответствует примерно 400 000 токенов. Исследовательская команда из Китайского университета в Гонконге разработала технологию LongLoRA, которая может увеличить длину текста 7B модели до 100 000 токенов, а 70B модели - до 32 000 токенов.

В настоящее время ряд ведущих компаний в области больших моделей как в стране, так и за границей делают акцент на расширении длины контекста в качестве ключевого направления обновлений и модернизаций. Большинство из этих компаний пользуются интересом со стороны капитальных рынков, их объемы финансирования и оценки очень внушительны.

Что означает увеличение длины контекста в 100 раз для компаний, занимающихся большими моделями, стремящихся преодолеть технологии длинных текстов?

На первый взгляд, это увеличение длины вводимого текста и улучшение читательских навыков. Сначала я мог прочитать только короткое произведение, а теперь могу читать целые длинные романы.

С более глубокой точки зрения, технологии длинного текста также способствуют внедрению крупных моделей в таких профессиональных областях, как финансы, юстиция и научные исследования. Способности к аннотированию длинных документов, пониманию прочитанного, вопросам и ответам являются основой для интеллектуального обновления в этих областях.

Однако длина текста не всегда является показателем его качества. Исследования показывают, что поддержка модели более длинного контекстного ввода не всегда напрямую связана с улучшением результатов. Более важно, как модель использует содержание контекста.

Однако на данный момент исследования длины текста как внутри страны, так и за рубежом еще далеко не достигли предела. Компании по созданию больших моделей продолжают делать прорывы, и 400000 токенов может быть только началом.

Почему нужно "скручивать" длинные тексты?

Основатель одной крупной компании по созданию моделей заявил, что именно из-за ограниченной длины ввода возникают трудности с внедрением многих приложений больших моделей. Это также причина, по которой многие компании в настоящее время сосредоточены на технологиях длинного текста.

Например, в таких сценариях, как виртуальные персонажи, разработка игр, профессиональный анализ и т.д., недостаточная длина ввода может привести к различным проблемам. В будущих приложениях на базе Agent и AI длинные тексты также играют важную роль.

Технология длинного текста может решить некоторые проблемы, за которые большие модели подвергались критике на ранних этапах, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения индустрии и реализации приложений. Это также указывает на то, что универсальные большие модели перешли в новую фазу от LLM к Long LLM.

С помощью нового выпущенного компанией чат-бота мы можем увидеть обновленные функции больших моделей на этапе Long LLM:

  • Долгосрочное извлечение, обобщение и анализ текстовой информации
  • Текст напрямую преобразуется в код
  • Ролевые игры в длинном диалоге

Эти примеры демонстрируют, что диалоговые роботы развиваются в направлении профессионализации, персонализации и углубления, что может стать новым рычагом для внедрения в промышленность.

Основатель одной компании считает, что рынок крупных моделей в стране будет разделен на два лагеря: toB и toC, в области toC появятся суперприложения на основе самостоятельно разработанных моделей.

Однако в настоящее время в сценах длительного текстового диалога все еще есть возможности для оптимизации, такие как подключение к сети, приостановка изменений, снижение количества ошибок и т.д.

Дилемма "невозможного треугольника" длинного текста

Долгие текстовые технологии сталкиваются с трудностями "неразрешимого треугольника" длины текста, внимания и вычислительной мощности:

  • Чем длиннее текст, тем сложнее сосредоточить внимание
  • Ограниченное внимание, трудности с полным восприятием сложной информации в коротких текстах
  • Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты

Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. В этом случае вычислительная сложность механизма самовнимания растет квадратично в зависимости от длины контекста.

Это создает противоречие между длиной текста и вниманием. В то же время, чтобы преодолеть более длинные тексты, требуется больше вычислительной мощности, что создает противоречие между длиной текста и вычислительной мощностью.

В настоящее время существует три основных решения:

  1. Используйте внешние инструменты для обработки длинных текстов
  2. Оптимизация вычислений механизмов самовнимания
  3. Общие методы оптимизации модели

Долгий текст о "неразрешимом треугольнике" временно не имеет решения, но определил путь исследования: искать баланс между тремя сторонами, чтобы обрабатывать достаточно информации, а также учитывать вычисление внимания и стоимость вычислительной мощности.

TOKEN-11.3%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Поделиться
комментарий
0/400
SerumSquirrelvip
· 07-25 12:12
Даже больше памяти не хватает.
Посмотреть ОригиналОтветить0
Ser_Liquidatedvip
· 07-25 12:10
Сложные зависимости и компромиссные отношения.
Посмотреть ОригиналОтветить0
BackrowObservervip
· 07-25 09:42
Запускал десять тысяч токенов, все зависло, и еще смеет хвастаться.
Посмотреть ОригиналОтветить0
StableGeniusDegenvip
· 07-23 23:41
Майнинг сжигает видеокарты, да и это дело
Посмотреть ОригиналОтветить0
consensus_whisperervip
· 07-22 12:57
400000 токенов? Снова сжигаем деньги.
Посмотреть ОригиналОтветить0
RugResistantvip
· 07-22 12:57
Рыба, которая не может вписаться

Язык контента: китайский

Вот комментарий к статье:

Не blame anyone, только сложнее всего видеокартам~
Посмотреть ОригиналОтветить0
SilentAlphavip
· 07-22 12:49
Тс-тс, всё больше раздувается, крупные инвесторы жгут деньги.
Посмотреть ОригиналОтветить0
gas_guzzlervip
· 07-22 12:39
Эта вычислительная мощность хочет обработать такую длинную? Это шутка?
Посмотреть ОригиналОтветить0
ImpermanentLossFanvip
· 07-22 12:37
Медленно ложитесь и читайте длинные тексты.
Посмотреть ОригиналОтветить0
Подробнее
  • Закрепить