【AI+2513】Zhipu випустила багатомодальну модель базового кодування для візуального програмування GLM-5V-Turbo

robot
Генерація анотацій у процесі

Одна з провідних компаній у Китаї в галузі штучного інтелекту (AI).

У четвер (2 числа) було випущено базову мультимодальну модель для програмування, побудовану для візуального програмування, Coding GLM-5V-Turbo.

Зі свого боку, Zhipu表示, GLM-5V-Turbo на етапі попереднього навчання глибоко поєднує візуальні й текстові можливості; програмування більше не обмежується лише введенням чистого тексту. Модель розуміє макети, скріншоти та вебінтерфейси, а на їх основі генерує повний працездатний код — по-справжньому вміє “бачити екрани” й “писати код”.

Три ключові особливості GLM-5V-Turbo

  • Нативна мультимодальна основа для Coding: нативне розуміння зображень, відео, макетів дизайну, компонування документа тощо; підтримка викликів мультимодальних інструментів на кшталт рамки для виділення, скріншотів, перегляду вебсторінок; розширення контекстного вікна до 200k
  • Поєднання візуальних і програмних можливостей: у ключових бенчмарках на кшталт мультимодального Coding, Tool Use, GUI Agent тощо досягнуто лідерських результатів. Через технічні підходи на кшталт кооперативного RL для багатозадачності забезпечується, що в чисто текстових сценаріях можливості програмування, міркування, виклику інструментів та інше не погіршуються.
  • Глибока адаптація під Claude Code та сценарії “龙虾”: глибока кооперація з агентами на кшталт Claude Code та OpenClaw/AutoClaw; підтримується повний замкнений цикл “розуміти середовище → планувати дії → виконувати завдання”, а також надається повний комплект офіційних Skills — одразу “під ключ” і готово до використання.

Zhipu зазначає, що за бенчмарками в мультимодальному Coding, агентських (Agentic) завданнях і в вимірюванні за вимірами чистого текстового Coding GLM-5V-Turbo демонструє лідерські результати з меншими розмірами.

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

GLM-5V-Turbo також показує лідерські результати за бенчмарками відтворення макетів, генерації візуального коду, мультимодального пошуку та відповідей, візуального дослідження тощо; а за бенчмарками, що вимірюють здатність керувати реальними GUI-середовищами, як-от AndroidWorld, WebVoyager, він так само демонструє видатну продуктивність.

У сфері можливостей чистого текстового Coding GLM-5V-Turbo в усіх трьох ключових бенчмарках тестування CC-Bench-V2 — Backend, Frontend і Repo Exploration — зберігає стабільну продуктивність, що вказує: після інтеграції візуальних можливостей рівень чистого текстового програмування й міркування лишається на такому самому рівні.

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

Згідно з описом, продуктивний лідерський результат GLM-5V-Turbo досягається завдяки системним покращенням у чотирьох аспектах: архітектурі моделі, методах навчання, конструкції даних і інструментальному ланцюжку:

З огляду на галузеві виклики дефіциту даних для агентів і труднощів верифікації, Zhipu побудувала багаторівневу систему — від сприйняття елементів до передбачення послідовнісних дій. На базі синтетичних середовищ у масовому масштабі генеруються контрольовані й такі, що верифікуються, навчальні дані; а також ще з етапу попереднього навчання вбудовуються агентські “мета-здібності” (наприклад, додавання PRM-даних для GUI Agent у попереднє навчання, щоб знизити “галюцинації”). Паралельно досліджується несиметрична оптимізація, використовуючи мультимодальні задачі оцінювання, щоб “розкрутити” потужніші агентські можливості.

Можна напряму Cap-граф програмувати

У застосуваннях Zhipu наводить такі приклади:

  1. Зображення — це код

GLM-5V-Turbo особливо добре підходить для ключових сценаріїв візуального програмування.

Відтворення фронтенду: надсилаєте ескізи, макети дизайну, скріншоти або відеозаписи референсних сайтів — і модель може безпосередньо розуміти компонування, колірні схеми, рівень компонентів і логіку взаємодії, генеруючи повний працездатний проєкт фронтенду та точно відтворюючи візуальні деталі на кшталт верстки, колірних схем, анімацій тощо.

Автономне дослідження GUI для відтворення: у поєднанні з фреймворками на кшталт Claude Code, GLM-5V-Turbo завдяки власним потужним можливостям GUI Agent може самостійно досліджувати цільовий сайт, переглядаючи структуру сторінок, вибудовуючи зв’язки між переходами між різними сторінками, збираючи візуальні матеріали та деталі взаємодій. Зрештою, на основі зафіксованих результатів дослідження генерується код для відтворення всього сайту, реалізуючи стрибок від можливості “відтворити, дивлячись на картинку” до “відтворити, досліджуючи GUI”.

Інтерактивне редагування: підтримує додавання/видалення модулів сторінок відповідно до потреб, зміну текстів і стилів, коригування структури компонування; а також може доповнювати інтерактивні функції на кшталт зворотного зв’язку з кнопок, перемикання через модальні вікна, зв’язування форм тощо, реалізуючи візуальну ітераційну правку.

  1. У лобстеру — очі

Межі завдань лобстера були значно розширені: наприклад, він може переглядати вебсторінки й документи, генерувати звіти та PPT з насиченим текстом і зображеннями, а також шукати й інтерпретувати складні діаграми, як-от графіки K-ліній.

AutoClaw уже запустив Skill “股票分析师” (аналітик акцій). Використовуючи нативні візуальні можливості GLM-5V-Turbo, лобстер може напряму розуміти траєкторію руху цін, діаграми діапазонів оцінки вартості та графіки з брокерських аналітичних звітів, реалізуючи паралельний збір даних з чотирьох джерел за 60 секунд і формуючи аналітичні звіти з чергуванням тексту й зображень. Наразі в AutoClaw можна перемкнутися на GLM-5V-Turbo та спробувати запитання: “Допоможи мені проаналізувати ціну сьогоднішнього XXX і згенеруй професійний аналітичний звіт”.

Крім візуального програмування та завдань лобстера, GLM-5V-Turbo також досяг значного приросту продуктивності в ширших агентських сценаріях, таких як мультимодальний пошук, поглиблені дослідження, GUI Agent, сприйняття Grounding тощо.

Для цього надано набір офіційних Skills, який охоплює нативні можливості на кшталт image Captioning, visual Grounding, написання на основі документів, відбір резюме, генерація промптів тощо, а також можливості розпізнавання тексту, таблиць, рукописного тексту, формул і генерації “текст → зображення”, побудовані на GLM-OCR та GLM-Image. Це допомагає користувачам розкривати мультимодальний потенціал моделі в більшій кількості сценаріїв. Вищезазначені Skills уже доступні на ClawHub: одним натисканням можна встановити й одразу випробувати всі можливості.

		Фінансові гарячі обговорення (Hot Talk)
	





	Війна між Іраном і США буде тривалою? Ринок недооцінює ризик глобальної рецесії?
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити