【AI+2513】Объявление о выпуске модели GLM-5V-Turbo — базовой мультимодальной модели для визуального программирования и кодирования

robot
Генерация тезисов в процессе

Одна из лидеров в области ИИ в материковом Китае — Zhipu (02513) В четверг (2-го числа) опубликовала модель базиса мультимодального программирования для визуального программирования Coding GLM-5V-Turbo。

Zhipu указывает, что GLM-5V-Turbo на этапе предварительного обучения глубоко объединяет визуальные и текстовые возможности: программирование больше не ограничивается только вводом чистого текста. Модель понимает макеты, скриншоты и веб-интерфейсы и на их основе генерирует полностью работоспособный код — по-настоящему «видит изображение» и «умеет писать код».

Три особенности GLM-5V-Turbo

  • Родной мультимодальный базис Coding: родное понимание изображений, видео, макетов, верстки документов и т. п. Моделям доступны мультимодальные инструменты вызова, такие как рисование рамок, скриншоты, чтение веб-страниц, и поддерживается расширение контекстного окна до 200k
  • Учет как визуальных, так и программных способностей: в ключевых бенчмарках, таких как мультимодальное Coding, Tool Use, GUI Agent и др., получены лидирующие результаты. Посредством технических методов вроде совместного обучения RL для многозадачности обеспечивается, что в сценариях с чистым текстом способности к программированию, рассуждению и вызову инструментов не деградируют.
  • Глубокая адаптация под Claude Code и сценарии «лухань-чжуань» (龙蝦): при глубокой совместной работе с Agent’ами, такими как Claude Code и OpenClaw/AutoClaw, поддерживается полный замкнутый цикл «понимание среды → планирование действий → выполнение задач», а также предоставляется полный комплект официальных Skills — «из коробки» и сразу в работу.

Zhipu отмечает, что на бенчмарках по мультимодальному Coding, агентным (Agentic) задачам и по измерениям чисто текстового Coding GLM-5V-Turbo демонстрирует лидирующие результаты при меньшем размере.

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

GLM-5V-Turbo также показывает лидирующие результаты по таким бенчмаркам, как восстановление по макету, генерация визуального кода, мультимодальный поиск и ответы на вопросы, а также визуальное зондирование; и в бенчмарках, оценивающих реальные возможности управления средой GUI, таких как AndroidWorld и WebVoyager, результаты также особенно высокие.

В части возможностей Coding по чистому тексту GLM-5V-Turbo сохраняет стабильную производительность во всех трех ключевых бенчмарках тестов CC-Bench-V2: Backend, Frontend и Repo Exploration, что указывает на то, что после внедрения визуальных способностей уровень чисто текстового программирования и рассуждения остается на эквивалентном уровне.

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

Согласно описанию, прорыв в производительности GLM-5V-Turbo обеспечен систематическими улучшениями на четырех уровнях: архитектуре модели, методах обучения, конструкциях данных и инструментальной цепочке:

Для отраслевых вызовов, связанных с дефицитом данных по Agent’ам и сложностью верификации, Zhipu построила многоуровневую систему — от распознавания элементов до прогнозирования последовательностных действий. Она основана на синтетических средах для крупномасштабной генерации управляемых и верифицируемых обучающих данных, а также с самого этапа предварительного обучения внедряет мета-возможности Agentic (например, добавляет данные GUI Agent PRM в предварительное обучение, чтобы снизить галлюцинации). Параллельно проводится исследование асимметричной оптимизации: с помощью мультимодальной оценки задач «раскачивают» более сильные возможности Agent’а.

Можно напрямую Cap-图 программировать

В приложениях Zhipu приводит пример:

  1. Изображение — это код

GLM-5V-Turbo особенно силен в ключевых сценариях визуального программирования.

Воспроизведение на фронтенде: отправляйте эскизы, макеты, а также скриншоты или записи экрана референсных сайтов — и модель сможет напрямую понять верстку, сочетания цветов, уровень компонентов и логику взаимодействий; затем сгенерирует полный работоспособный фронтенд-проект, точно воссоздавая визуальные детали вроде типографики, цветов и анимаций.

Автономное исследование GUI и воспроизведение: в сочетании с фреймворками вроде Claude Code GLM-5V-Turbo благодаря собственной мощной способности GUI Agent может самостоятельно исследовать целевой сайт: просматривает структуру страниц, выстраивает связи переходов между страницами, собирает визуальные материалы и подробности взаимодействий. В итоге, основываясь на зафиксированных результатах исследования, напрямую генерирует код, воспроизводя весь сайт — переход от «воспроизведения по картинке» к «воспроизведению через GUI-исследование».

Интерактивное редактирование: поддерживается добавление/удаление модулей страниц по требованиям, изменение текстов и стилей, настройка структуры верстки; а также можно дополнять интерактивные функции вроде отзывов на кнопки, переключения модальных окон, связки форм и т. п., обеспечивая визуальное итеративное редактирование.

  1. Надеть глаза на «лухань-чжуань» (龙蝦)

Границы задач «лухань-чжуань» (龙蝦) были существенно расширены: например, можно просматривать веб-страницы и документы, генерировать насыщенные иллюстрациями отчеты и PPT, а также запрашивать и интерпретировать сложные диаграммы вроде K-линий.

AutoClaw запустила Skill «Stock Analyst (股票分析师)». Используя родные визуальные возможности GLM-5V-Turbo, «лухань-чжуань» (龙蝦) может напрямую понимать траекторию движения линии цены акций, диаграммы диапазонов оценки и графики из отчетов брокеров, реализуя параллельный сбор данных из четырех источников за 60 секунд и выдавая аналитические отчеты с чередованием текста и графики. Сейчас в AutoClaw можно переключиться на GLM-5V-Turbo и попробовать задать вопрос: «Помоги проанализировать цену акций XXX сегодня и сгенерируй профессиональный аналитический отчет».

Помимо визуального программирования и задач «лухань-чжуань» (龙蝦), GLM-5V-Turbo также добился заметного прироста производительности в более широких агентных сценариях, таких как мультимодальный поиск, углубленные исследования, GUI Agent, а также сенсорное Grounding и т. п.

Для этого предоставлен набор официальных Skills, охватывающих нативные возможности вроде image Captioning, визуального Grounding, написания на основе документов, отбора резюме, генерации подсказок (prompt) и т. п., а также текстовое распознавание, распознавание таблиц, распознавание рукописного текста, распознавание формул и возможности «текст-в-картинку», построенные на базе GLM-OCR и GLM-Image. Это помогает пользователям раскрывать мультимодальный потенциал модели в большем числе сценариев. Указанные Skills уже доступны в ClawHub: одной установкой можно испытать все возможности.

		Финансовые Hot Talk
	





	Иран-США угроза нанесения ударов окажется войной на истощение? Рынок недооценивает риск глобального экономического спада?
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить