Технічний звіт про GPT-5V-Turbo від Zhipu: Design2Code超Claude Opus4.6, дивіться скріншот і одразу пишіть код

robot
Генерація анотацій у процесі

Звіт з технології GLM-5V-Turbo опубліковано компанією Ціпу AI, повідомляє CoinWorld.
Ця модель була запущена на z.ai API та OpenRouter на початку квітня.
У цьому звіті додатково наведено методологію, модель не була відкритою для публічного доступу.
GLM-5V-Turbo — це перша мультимодальна модель для програмування від Ціпу, яка підтримує контекст до 200 тисяч токенів, може підключатися до фреймворків агентів, таких як Claude Code та OpenClaw.
З самого початку навчання модель інтегрує візуальне сприйняття у весь процес — від розуміння, планування, виклику інструментів до їх виконання.
Архітектура моделі має три ключові елементи: новий візуальний кодер CogVit, який використовує двохвчителів для дистиляції SigLip2 та DinoV3, а також контрастне навчання з 8 мільярдами двомовних англійсько-китайських графічних даних для узгодження мультимодального багатотокенового прогнозування (MMTP).
Використовується спільний навчальний спеціальний токен, який замінює безпосередній передавальний візуальний вбудовування, що зменшує складність комунікації між етапами конвеєра та забезпечує більш стабільне навчання.
Об’єднане підкріплене навчання охоплює три рівні: сприйняття, розуміння та виконання агентом.
Конкретні результати показують, що Design2Code досягає 94.8 балів, перевищуючи Claude Opus на 4.6.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити