Прорыв в способности больших моделей к работе с длинными текстами: скачок с 4000 токенов до 400000 токенов.

2025-07-22 12:28:39

Генерация тезисов в процессе

Повышение способности больших моделей к работе с длинными текстами: от LLM к эпохе Long LLM

Технология больших моделей развивается с потрясающей скоростью, способность обработки текста выросла с 4000 токенов до 400000 токенов. Способность работать с длинными текстами, похоже, стала новым стандартом для производителей больших моделей.

За границей OpenAI несколько раз обновлял GPT-4, увеличив длину контекста до 32 000 токенов. Anthropic даже увеличил длину контекста своей модели Claude до 100 000 токенов. LongLLaMA расширил длину контекста до 256 000 токенов и даже больше.

В стране стартап, занимающийся крупными моделями, выпустил продукт интеллектуального помощника, который поддерживает ввод 200 000 китайских иероглифов, что соответствует примерно 400 000 токенов. Исследовательская команда из Китайского университета в Гонконге разработала технологию LongLoRA, которая может увеличить длину текста 7B модели до 100 000 токенов, а 70B модели - до 32 000 токенов.

В настоящее время ряд ведущих компаний в области больших моделей как в стране, так и за границей делают акцент на расширении длины контекста в качестве ключевого направления обновлений и модернизаций. Большинство из этих компаний пользуются интересом со стороны капитальных рынков, их объемы финансирования и оценки очень внушительны.

Что означает увеличение длины контекста в 100 раз для компаний, занимающихся большими моделями, стремящихся преодолеть технологии длинных текстов?

На первый взгляд, это увеличение длины вводимого текста и улучшение читательских навыков. Сначала я мог прочитать только короткое произведение, а теперь могу читать целые длинные романы.

С более глубокой точки зрения, технологии длинного текста также способствуют внедрению крупных моделей в таких профессиональных областях, как финансы, юстиция и научные исследования. Способности к аннотированию длинных документов, пониманию прочитанного, вопросам и ответам являются основой для интеллектуального обновления в этих областях.

Однако длина текста не всегда является показателем его качества. Исследования показывают, что поддержка модели более длинного контекстного ввода не всегда напрямую связана с улучшением результатов. Более важно, как модель использует содержание контекста.

Однако на данный момент исследования длины текста как внутри страны, так и за рубежом еще далеко не достигли предела. Компании по созданию больших моделей продолжают делать прорывы, и 400000 токенов может быть только началом.

Почему нужно "скручивать" длинные тексты?

Основатель одной крупной компании по созданию моделей заявил, что именно из-за ограниченной длины ввода возникают трудности с внедрением многих приложений больших моделей. Это также причина, по которой многие компании в настоящее время сосредоточены на технологиях длинного текста.

Например, в таких сценариях, как виртуальные персонажи, разработка игр, профессиональный анализ и т.д., недостаточная длина ввода может привести к различным проблемам. В будущих приложениях на базе Agent и AI длинные тексты также играют важную роль.

Технология длинного текста может решить некоторые проблемы, за которые большие модели подвергались критике на ранних этапах, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения индустрии и реализации приложений. Это также указывает на то, что универсальные большие модели перешли в новую фазу от LLM к Long LLM.

С помощью нового выпущенного компанией чат-бота мы можем увидеть обновленные функции больших моделей на этапе Long LLM:

Долгосрочное извлечение, обобщение и анализ текстовой информации
Текст напрямую преобразуется в код
Ролевые игры в длинном диалоге

Эти примеры демонстрируют, что диалоговые роботы развиваются в направлении профессионализации, персонализации и углубления, что может стать новым рычагом для внедрения в промышленность.

Основатель одной компании считает, что рынок крупных моделей в стране будет разделен на два лагеря: toB и toC, в области toC появятся суперприложения на основе самостоятельно разработанных моделей.

Однако в настоящее время в сценах длительного текстового диалога все еще есть возможности для оптимизации, такие как подключение к сети, приостановка изменений, снижение количества ошибок и т.д.

Дилемма "невозможного треугольника" длинного текста

Долгие текстовые технологии сталкиваются с трудностями "неразрешимого треугольника" длины текста, внимания и вычислительной мощности:

Чем длиннее текст, тем сложнее сосредоточить внимание
Ограниченное внимание, трудности с полным восприятием сложной информации в коротких текстах
Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты

Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. В этом случае вычислительная сложность механизма самовнимания растет квадратично в зависимости от длины контекста.

Это создает противоречие между длиной текста и вниманием. В то же время, чтобы преодолеть более длинные тексты, требуется больше вычислительной мощности, что создает противоречие между длиной текста и вычислительной мощностью.

В настоящее время существует три основных решения:

Используйте внешние инструменты для обработки длинных текстов
Оптимизация вычислений механизмов самовнимания
Общие методы оптимизации модели

Долгий текст о "неразрешимом треугольнике" временно не имеет решения, но определил путь исследования: искать баланс между тремя сторонами, чтобы обрабатывать достаточно информации, а также учитывать вычисление внимания и стоимость вычислительной мощности.

TOKEN-11.3%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

25 Лайков

Награда
25
9
Поделиться

комментарий

0/400

SerumSquirrel

· 07-25 12:12

Даже больше памяти не хватает.

Посмотреть ОригиналОтветить0

Ser_Liquidated

· 07-25 12:10

Сложные зависимости и компромиссные отношения.

Посмотреть ОригиналОтветить0

BackrowObserver

· 07-25 09:42

Запускал десять тысяч токенов, все зависло, и еще смеет хвастаться.

Посмотреть ОригиналОтветить0

StableGeniusDegen

· 07-23 23:41

Майнинг сжигает видеокарты, да и это дело

Посмотреть ОригиналОтветить0

consensus_whisperer

· 07-22 12:57

400000 токенов? Снова сжигаем деньги.

Посмотреть ОригиналОтветить0

RugResistant

· 07-22 12:57

Рыба, которая не может вписаться

Язык контента: китайский

Вот комментарий к статье:

Не blame anyone, только сложнее всего видеокартам~

Посмотреть ОригиналОтветить0

SilentAlpha

· 07-22 12:49

Тс-тс, всё больше раздувается, крупные инвесторы жгут деньги.

Посмотреть ОригиналОтветить0

gas_guzzler

· 07-22 12:39

Эта вычислительная мощность хочет обработать такую длинную? Это шутка?

Посмотреть ОригиналОтветить0

ImpermanentLossFan

· 07-22 12:37

Медленно ложитесь и читайте длинные тексты.

Посмотреть ОригиналОтветить0

Подробнее

Тема
1/3
1CandyDrop Airdrop Event 6.0
11k Популярность
2White House Crypto Report
28k Популярность
3Join Alpha RION Airdrop to Earn $40
5k Популярность
4Fed Holds Rates Decision
7k Популярность
5July Spark Program TOP 10 Creators Announced
859 Популярность

Закрепить

Карта сайта