智譜AI опублікував технічний звіт GLM-5V-Turbo, першу мультимодальну платформу для програмування, з контекстом близько 200K, може підключатися до ClaudeCode/OpenClaw, не є відкритим кодом. Три основні компоненти дизайну: візуальне кодування CogViT, спільний токен MMTP<|image|>, спільне навчання з підкріпленням для понад 30 завдань. Значне покращення в багатьох сферах RL, Design2Code 94.8, MMSearch-Plus 30.0, ImageMining 30.7.

BlockBeatNews

2026-05-08 02:53:48

Генерація анотацій у процесі

Згідно з моніторингом Beating, компанія 智谱 AI опублікувала технічний звіт GLM-5V-Turbo. Модель вже запущена в API Z.ai та OpenRouter з початку квітня, цей раз — додаткове розкриття методології, модель не була відкритою. GLM-5V-Turbo — це перша мультимодальна модель для програмування від 智谱, яка підтримує контекст до 200K, може підключатися до фреймворків агентів, таких як Claude Code та OpenClaw. На відміну від більшості підходів, що розглядають візуальні дані як додаток до мовної моделі, ця модель з самого початку інтегрує візуальне сприйняття у весь процес — від розуміння, планування, виклику інструментів до виконання.

Архітектура моделі має три ключові елементи дизайну. По-перше, новий візуальний кодер CogViT, який пройшов попереднє навчання за допомогою двох учителів SigLIP2 та DINOv3 через дистиляцію, а потім — зі 8 мільярдами двомовних китайсько-англійських графічних та текстових даних для контрастного навчання та узгодження. По-друге, мультимодальне багатотокове передбачення (MMTP), яке використовує спільний навчальний спеціальний токен <|image|> замість безпосередньої передачі візуальних векторів, що зменшує складність комунікації між етапами пайплайну і робить навчання більш стабільним. По-третє, об’єднане навчання з підкріпленням понад 30 завдань, що охоплюють рівні сприйняття, розуміння та виконання агентів.

Покращення на етапі підкріпленого навчання поширюються широко: локалізація 2D зображень +4.8%, розуміння відео +5.6%, локалізація 3D +7.7%, OCR +4.2%, розуміння графіків +7.7%, GUI-агент (OSWorld) +4.9%, мультимодальний пошук та виклик інструментів +3.5%. У команді зазначають у статті, що багатозадачне RL відрізняється від звичайного SFT, оскільки різні навички стабільно покращуються разом, і навіть навички розуміння, набуті в одній галузі, можуть переноситися в інші.

Конкретні результати тестування: Design2Code — 94.8, перевищує Claude Opus на 4.6; OSWorld — 62.3, AndroidWorld — 75.7; мультимодальний пошук MMSearch — 72.9, BrowseComp-VL — 51.9; чистий текстовий програмування у бекенді CC-Bench-V2 — 22.8, у фронтенді — 68.4, у дослідженні репозиторіїв — 72.2, перевищуючи їхню базову модель GLM-5-Turbo. MMSearch-Plus отримав 30.0, що майже в 8 разів більше за попередню версію GLM-4.6V; власний візуальний глибокий пошуковий бенчмарк ImageMining — 30.7.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
730.56K Популярність
#
BitcoinFallsBelow80K
95.02M Популярність
#
IsraelStrikesIranBTCPlunges
44.25K Популярність
#
IranUSConflictEscalates
84.93K Популярність
#
OilPriceRollerCoaster
1.02M Популярність

Закріпити

карта сайту

Технічний звіт про GPT-5V-Turbo від Zhipu: Design2Code超Claude Opus4.6, дивіться скріншот і одразу пишіть код

Популярні теми

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Закріпити