Технічний звіт про GPT-5V-Turbo від Zhipu: Design2Code超Claude Opus4.6, дивіться скріншот і одразу пишіть код

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, компанія 智谱 AI опублікувала технічний звіт GLM-5V-Turbo. Модель вже запущена в API Z.ai та OpenRouter з початку квітня, цей раз — додаткове розкриття методології, модель не була відкритою. GLM-5V-Turbo — це перша мультимодальна модель для програмування від 智谱, яка підтримує контекст до 200K, може підключатися до фреймворків агентів, таких як Claude Code та OpenClaw. На відміну від більшості підходів, що розглядають візуальні дані як додаток до мовної моделі, ця модель з самого початку інтегрує візуальне сприйняття у весь процес — від розуміння, планування, виклику інструментів до виконання.

Архітектура моделі має три ключові елементи дизайну. По-перше, новий візуальний кодер CogViT, який пройшов попереднє навчання за допомогою двох учителів SigLIP2 та DINOv3 через дистиляцію, а потім — зі 8 мільярдами двомовних китайсько-англійських графічних та текстових даних для контрастного навчання та узгодження. По-друге, мультимодальне багатотокове передбачення (MMTP), яке використовує спільний навчальний спеціальний токен <|image|> замість безпосередньої передачі візуальних векторів, що зменшує складність комунікації між етапами пайплайну і робить навчання більш стабільним. По-третє, об’єднане навчання з підкріпленням понад 30 завдань, що охоплюють рівні сприйняття, розуміння та виконання агентів.

Покращення на етапі підкріпленого навчання поширюються широко: локалізація 2D зображень +4.8%, розуміння відео +5.6%, локалізація 3D +7.7%, OCR +4.2%, розуміння графіків +7.7%, GUI-агент (OSWorld) +4.9%, мультимодальний пошук та виклик інструментів +3.5%. У команді зазначають у статті, що багатозадачне RL відрізняється від звичайного SFT, оскільки різні навички стабільно покращуються разом, і навіть навички розуміння, набуті в одній галузі, можуть переноситися в інші.

Конкретні результати тестування: Design2Code — 94.8, перевищує Claude Opus на 4.6; OSWorld — 62.3, AndroidWorld — 75.7; мультимодальний пошук MMSearch — 72.9, BrowseComp-VL — 51.9; чистий текстовий програмування у бекенді CC-Bench-V2 — 22.8, у фронтенді — 68.4, у дослідженні репозиторіїв — 72.2, перевищуючи їхню базову модель GLM-5-Turbo. MMSearch-Plus отримав 30.0, що майже в 8 разів більше за попередню версію GLM-4.6V; власний візуальний глибокий пошуковий бенчмарк ImageMining — 30.7.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити