Повышение способности больших моделей к работе с длинными текстами: от LLM к эпохе Long LLM
Технология больших моделей развивается с потрясающей скоростью, способность обработки текста выросла с 4000 токенов до 400000 токенов. Способность работать с длинными текстами, похоже, стала новым стандартом для производителей больших моделей.
За границей OpenAI несколько раз обновлял GPT-4, увеличив длину контекста до 32 000 токенов. Anthropic даже увеличил длину контекста своей модели Claude до 100 000 токенов. LongLLaMA расширил длину контекста до 256 000 токенов и даже больше.
В стране стартап, занимающийся крупными моделями, выпустил продукт интеллектуального помощника, который поддерживает ввод 200 000 китайских иероглифов, что соответствует примерно 400 000 токенов. Исследовательская команда из Китайского университета в Гонконге разработала технологию LongLoRA, которая может увеличить длину текста 7B модели до 100 000 токенов, а 70B модели - до 32 000 токенов.
В настоящее время ряд ведущих компаний в области больших моделей как в стране, так и за границей делают акцент на расширении длины контекста в качестве ключевого направления обновлений и модернизаций. Большинство из этих компаний пользуются интересом со стороны капитальных рынков, их объемы финансирования и оценки очень внушительны.
Что означает увеличение длины контекста в 100 раз для компаний, занимающихся большими моделями, стремящихся преодолеть технологии длинных текстов?
На первый взгляд, это увеличение длины вводимого текста и улучшение читательских навыков. Сначала я мог прочитать только короткое произведение, а теперь могу читать целые длинные романы.
С более глубокой точки зрения, технологии длинного текста также способствуют внедрению крупных моделей в таких профессиональных областях, как финансы, юстиция и научные исследования. Способности к аннотированию длинных документов, пониманию прочитанного, вопросам и ответам являются основой для интеллектуального обновления в этих областях.
Однако длина текста не всегда является показателем его качества. Исследования показывают, что поддержка модели более длинного контекстного ввода не всегда напрямую связана с улучшением результатов. Более важно, как модель использует содержание контекста.
Однако на данный момент исследования длины текста как внутри страны, так и за рубежом еще далеко не достигли предела. Компании по созданию больших моделей продолжают делать прорывы, и 400000 токенов может быть только началом.
Почему нужно "скручивать" длинные тексты?
Основатель одной крупной компании по созданию моделей заявил, что именно из-за ограниченной длины ввода возникают трудности с внедрением многих приложений больших моделей. Это также причина, по которой многие компании в настоящее время сосредоточены на технологиях длинного текста.
Например, в таких сценариях, как виртуальные персонажи, разработка игр, профессиональный анализ и т.д., недостаточная длина ввода может привести к различным проблемам. В будущих приложениях на базе Agent и AI длинные тексты также играют важную роль.
Технология длинного текста может решить некоторые проблемы, за которые большие модели подвергались критике на ранних этапах, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения индустрии и реализации приложений. Это также указывает на то, что универсальные большие модели перешли в новую фазу от LLM к Long LLM.
С помощью нового выпущенного компанией чат-бота мы можем увидеть обновленные функции больших моделей на этапе Long LLM:
Долгосрочное извлечение, обобщение и анализ текстовой информации
Текст напрямую преобразуется в код
Ролевые игры в длинном диалоге
Эти примеры демонстрируют, что диалоговые роботы развиваются в направлении профессионализации, персонализации и углубления, что может стать новым рычагом для внедрения в промышленность.
Основатель одной компании считает, что рынок крупных моделей в стране будет разделен на два лагеря: toB и toC, в области toC появятся суперприложения на основе самостоятельно разработанных моделей.
Однако в настоящее время в сценах длительного текстового диалога все еще есть возможности для оптимизации, такие как подключение к сети, приостановка изменений, снижение количества ошибок и т.д.
Дилемма "невозможного треугольника" длинного текста
Долгие текстовые технологии сталкиваются с трудностями "неразрешимого треугольника" длины текста, внимания и вычислительной мощности:
Чем длиннее текст, тем сложнее сосредоточить внимание
Ограниченное внимание, трудности с полным восприятием сложной информации в коротких текстах
Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты
Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. В этом случае вычислительная сложность механизма самовнимания растет квадратично в зависимости от длины контекста.
Это создает противоречие между длиной текста и вниманием. В то же время, чтобы преодолеть более длинные тексты, требуется больше вычислительной мощности, что создает противоречие между длиной текста и вычислительной мощностью.
В настоящее время существует три основных решения:
Используйте внешние инструменты для обработки длинных текстов
Оптимизация вычислений механизмов самовнимания
Общие методы оптимизации модели
Долгий текст о "неразрешимом треугольнике" временно не имеет решения, но определил путь исследования: искать баланс между тремя сторонами, чтобы обрабатывать достаточно информации, а также учитывать вычисление внимания и стоимость вычислительной мощности.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
25 Лайков
Награда
25
9
Поделиться
комментарий
0/400
SerumSquirrel
· 07-25 12:12
Даже больше памяти не хватает.
Посмотреть ОригиналОтветить0
Ser_Liquidated
· 07-25 12:10
Сложные зависимости и компромиссные отношения.
Посмотреть ОригиналОтветить0
BackrowObserver
· 07-25 09:42
Запускал десять тысяч токенов, все зависло, и еще смеет хвастаться.
Посмотреть ОригиналОтветить0
StableGeniusDegen
· 07-23 23:41
Майнинг сжигает видеокарты, да и это дело
Посмотреть ОригиналОтветить0
consensus_whisperer
· 07-22 12:57
400000 токенов? Снова сжигаем деньги.
Посмотреть ОригиналОтветить0
RugResistant
· 07-22 12:57
Рыба, которая не может вписаться
Язык контента: китайский
Вот комментарий к статье:
Не blame anyone, только сложнее всего видеокартам~
Посмотреть ОригиналОтветить0
SilentAlpha
· 07-22 12:49
Тс-тс, всё больше раздувается, крупные инвесторы жгут деньги.
Посмотреть ОригиналОтветить0
gas_guzzler
· 07-22 12:39
Эта вычислительная мощность хочет обработать такую длинную? Это шутка?
Прорыв в способности больших моделей к работе с длинными текстами: скачок с 4000 токенов до 400000 токенов.
Повышение способности больших моделей к работе с длинными текстами: от LLM к эпохе Long LLM
Технология больших моделей развивается с потрясающей скоростью, способность обработки текста выросла с 4000 токенов до 400000 токенов. Способность работать с длинными текстами, похоже, стала новым стандартом для производителей больших моделей.
За границей OpenAI несколько раз обновлял GPT-4, увеличив длину контекста до 32 000 токенов. Anthropic даже увеличил длину контекста своей модели Claude до 100 000 токенов. LongLLaMA расширил длину контекста до 256 000 токенов и даже больше.
В стране стартап, занимающийся крупными моделями, выпустил продукт интеллектуального помощника, который поддерживает ввод 200 000 китайских иероглифов, что соответствует примерно 400 000 токенов. Исследовательская команда из Китайского университета в Гонконге разработала технологию LongLoRA, которая может увеличить длину текста 7B модели до 100 000 токенов, а 70B модели - до 32 000 токенов.
В настоящее время ряд ведущих компаний в области больших моделей как в стране, так и за границей делают акцент на расширении длины контекста в качестве ключевого направления обновлений и модернизаций. Большинство из этих компаний пользуются интересом со стороны капитальных рынков, их объемы финансирования и оценки очень внушительны.
Что означает увеличение длины контекста в 100 раз для компаний, занимающихся большими моделями, стремящихся преодолеть технологии длинных текстов?
На первый взгляд, это увеличение длины вводимого текста и улучшение читательских навыков. Сначала я мог прочитать только короткое произведение, а теперь могу читать целые длинные романы.
С более глубокой точки зрения, технологии длинного текста также способствуют внедрению крупных моделей в таких профессиональных областях, как финансы, юстиция и научные исследования. Способности к аннотированию длинных документов, пониманию прочитанного, вопросам и ответам являются основой для интеллектуального обновления в этих областях.
Однако длина текста не всегда является показателем его качества. Исследования показывают, что поддержка модели более длинного контекстного ввода не всегда напрямую связана с улучшением результатов. Более важно, как модель использует содержание контекста.
Однако на данный момент исследования длины текста как внутри страны, так и за рубежом еще далеко не достигли предела. Компании по созданию больших моделей продолжают делать прорывы, и 400000 токенов может быть только началом.
Почему нужно "скручивать" длинные тексты?
Основатель одной крупной компании по созданию моделей заявил, что именно из-за ограниченной длины ввода возникают трудности с внедрением многих приложений больших моделей. Это также причина, по которой многие компании в настоящее время сосредоточены на технологиях длинного текста.
Например, в таких сценариях, как виртуальные персонажи, разработка игр, профессиональный анализ и т.д., недостаточная длина ввода может привести к различным проблемам. В будущих приложениях на базе Agent и AI длинные тексты также играют важную роль.
Технология длинного текста может решить некоторые проблемы, за которые большие модели подвергались критике на ранних этапах, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения индустрии и реализации приложений. Это также указывает на то, что универсальные большие модели перешли в новую фазу от LLM к Long LLM.
С помощью нового выпущенного компанией чат-бота мы можем увидеть обновленные функции больших моделей на этапе Long LLM:
Эти примеры демонстрируют, что диалоговые роботы развиваются в направлении профессионализации, персонализации и углубления, что может стать новым рычагом для внедрения в промышленность.
Основатель одной компании считает, что рынок крупных моделей в стране будет разделен на два лагеря: toB и toC, в области toC появятся суперприложения на основе самостоятельно разработанных моделей.
Однако в настоящее время в сценах длительного текстового диалога все еще есть возможности для оптимизации, такие как подключение к сети, приостановка изменений, снижение количества ошибок и т.д.
Дилемма "невозможного треугольника" длинного текста
Долгие текстовые технологии сталкиваются с трудностями "неразрешимого треугольника" длины текста, внимания и вычислительной мощности:
Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. В этом случае вычислительная сложность механизма самовнимания растет квадратично в зависимости от длины контекста.
Это создает противоречие между длиной текста и вниманием. В то же время, чтобы преодолеть более длинные тексты, требуется больше вычислительной мощности, что создает противоречие между длиной текста и вычислительной мощностью.
В настоящее время существует три основных решения:
Долгий текст о "неразрешимом треугольнике" временно не имеет решения, но определил путь исследования: искать баланс между тремя сторонами, чтобы обрабатывать достаточно информации, а также учитывать вычисление внимания и стоимость вычислительной мощности.
Язык контента: китайский
Вот комментарий к статье:
Не blame anyone, только сложнее всего видеокартам~