Передовая команда DeepSeek возглавила, Baidu выпустила открытый исходный код модели анализа документов 3B Unlimited OCR

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, Baidu опубликовала открытый документ о интеллектуальном анализе крупной модели для анализа документов Unlimited-OCR и выпустила технический отчет. В отчете указано, что технический директор проекта — загадочный участник под псевдонимом «YY». В отрасли широко предполагается, что реальная личность «YY» — бывший автор ядра DeepSeek-OCR Вэй Хаоран. Модель Unlimited-OCR также построена на базе платформы DeepSeek-OCR. Unlimited-OCR достигла 93,92% в стандартном тесте анализа длинных документов OmniDocBench v1.6, установив новый рекорд в области end-to-end SOTA. Традиционные крупные модели для анализа документов при обработке многостраничных длинных текстов часто значительно замедляются из-за линейного роста кеша ключей и значений KV cache, что приводит к снижению скорости работы и высоким расходам видеопамяти. Чтобы решить проблему замедления, Baidu внедрила механизм参考滑动窗口注意力机制 R-SWA. При декодировании и генерации текста модель обращает внимание только на все изображенные признаки и недавно сгенерированный текст в фиксированном окне (по умолчанию 128 токенов), что ограничивает общий объем KV cache постоянной величиной. R-SWA предотвращает размытость деталей изображений при их удалении с окна и одновременно обеспечивает постоянную скорость вывода и расход видеопамяти при анализе документов длиной более 40 страниц, что в тестах ускоряет работу по сравнению с DeepSeek-OCR на 12,7%. В настоящее время Baidu выпустила код и веса Unlimited-OCR под лицензией MIT, поддерживая основные движки, такие как Hugging Face Transformers, vLLM, SGLang, среди которых SGLang уже поддерживает оптимизацию кеша для R-SWA. В будущем команда планирует распространить механизм参考滑动窗口注意力 на задачи распознавания речи ASR и перевод, а также другие задачи с использованием参考型 методов. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено