Технический отчет о модели Zhipu GLM-5V-Turbo: Design2Code сверх Claude Opus4.6, по скриншоту сразу пишите код

robot
Генерация тезисов в процессе

Байцзюэ Вэнь новости, Zhipu AI опубликовала технический отчет по GLM-5V-Turbo, эта модель была запущена в начале апреля через API z.ai и OpenRouter. В этом отчете дополнительно представлена методология, модель не была открыта. GLM-5V-Turbo — это первый мультимодальный базовый модель для программирования от Zhipu, поддерживающая около 200 тысяч контекста, может подключаться к агентским рамкам, таким как Claude Code и OpenClaw. Эта модель с этапа предварительной тренировки интегрировала визуическое восприятие во весь процесс — от рассуждений, планирования, вызова инструментов и выполнения. Архитектура модели включает три ключевых дизайна: новый визуальный кодировщик CogVit, использующий двойное учительское дистилляционное обучение с SigLip2 и DinoV3, а также контрастное обучение с использованием 8 миллиардов двуязычных китайско-английских графических и текстовых данных для выравнивания мультимодальных и многотокенных предсказаний (MMTP), с помощью общего обучаемого специального токена, заменяющего прямую передачу визуальных встраиваний, что снижает сложность коммуникации между этапами пайплайна и делает обучение более стабильным, объединяя усиленное обучение, охватывающее восприятие, рассуждение и выполнение агентом. Конкретные показатели показывают, что Design2Code достигает 94.8, превосходя Claude Opus 4.6.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить