Перед запуском DeepSeek керівники команди, Baidu відкрили код моделі аналізу документів 3B Unlimited OCR

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, Baidu відкрив документацію інтелектуального аналізу великої моделі Unlimited-OCR та опублікував технічний звіт. У підписі звіту зазначено, що технічний директор проекту — таємничий учасник під псевдонімом «YY». У галузі широко припускають, що справжня особистість «YY» — колишній автор ядра DeepSeek-OCR Вей Хаоран. Модель Unlimited-OCR також побудована на базі платформи DeepSeek-OCR. Unlimited-OCR досягла 93,92% у стандартному тесті аналізу довгих документів OmniDocBench v1.6, оновивши рекорд у кінцевій точці SOTA. Традиційні великі моделі для аналізу документів при обробці багатосторінкових довгих текстів часто значно сповільнюються через лінійне зростання кешу ключ-значення KV, що призводить до значних витрат пам’яті та зниження швидкості роботи. Щоб вирішити проблему уповільнення, Baidu впровадила механізм уваги з рухомим вікном R-SWA. Під час декодування та генерації тексту модель фокусується лише на всіх ознаках зображень та недавньому фіксованому вікні (за замовчуванням 128 токенів) вже згенерованого тексту, що обмежує загальний об’єм кешу KV до постійної величини. R-SWA запобігає розмиттю деталей зображень через зняття їх з вікна, а також забезпечує стабільну швидкість обробки та споживання пам’яті при аналізі документів довжиною понад 40 сторінок, у тестах прискорення у порівнянні з DeepSeek-OCR склало 12,7%. Наразі Baidu відкрила код та ваги Unlimited-OCR під ліцензією MIT, підтримуючи основні рушії, такі як Hugging Face Transformers, vLLM, SGLang, з яких SGLang вже підтримує оптимізацію кешу для R-SWA. У майбутньому команда планує поширити механізм рухомого вікна уваги на інші завдання, такі як автоматичне розпізнавання мовлення ASR та переклад. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено