Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
【AI+2513】Zhipu випустила багатомодальну модель базового кодування для візуального програмування GLM-5V-Turbo
Одна з провідних компаній у Китаї в галузі штучного інтелекту (AI).
У четвер (2 числа) було випущено базову мультимодальну модель для програмування, побудовану для візуального програмування, Coding GLM-5V-Turbo.
Зі свого боку, Zhipu表示, GLM-5V-Turbo на етапі попереднього навчання глибоко поєднує візуальні й текстові можливості; програмування більше не обмежується лише введенням чистого тексту. Модель розуміє макети, скріншоти та вебінтерфейси, а на їх основі генерує повний працездатний код — по-справжньому вміє “бачити екрани” й “писати код”.
Три ключові особливості GLM-5V-Turbo
Zhipu зазначає, що за бенчмарками в мультимодальному Coding, агентських (Agentic) завданнях і в вимірюванні за вимірами чистого текстового Coding GLM-5V-Turbo демонструє лідерські результати з меншими розмірами.
GLM-5V-Turbo також показує лідерські результати за бенчмарками відтворення макетів, генерації візуального коду, мультимодального пошуку та відповідей, візуального дослідження тощо; а за бенчмарками, що вимірюють здатність керувати реальними GUI-середовищами, як-от AndroidWorld, WebVoyager, він так само демонструє видатну продуктивність.
У сфері можливостей чистого текстового Coding GLM-5V-Turbo в усіх трьох ключових бенчмарках тестування CC-Bench-V2 — Backend, Frontend і Repo Exploration — зберігає стабільну продуктивність, що вказує: після інтеграції візуальних можливостей рівень чистого текстового програмування й міркування лишається на такому самому рівні.
Згідно з описом, продуктивний лідерський результат GLM-5V-Turbo досягається завдяки системним покращенням у чотирьох аспектах: архітектурі моделі, методах навчання, конструкції даних і інструментальному ланцюжку:
З огляду на галузеві виклики дефіциту даних для агентів і труднощів верифікації, Zhipu побудувала багаторівневу систему — від сприйняття елементів до передбачення послідовнісних дій. На базі синтетичних середовищ у масовому масштабі генеруються контрольовані й такі, що верифікуються, навчальні дані; а також ще з етапу попереднього навчання вбудовуються агентські “мета-здібності” (наприклад, додавання PRM-даних для GUI Agent у попереднє навчання, щоб знизити “галюцинації”). Паралельно досліджується несиметрична оптимізація, використовуючи мультимодальні задачі оцінювання, щоб “розкрутити” потужніші агентські можливості.
Можна напряму Cap-граф програмувати
У застосуваннях Zhipu наводить такі приклади:
GLM-5V-Turbo особливо добре підходить для ключових сценаріїв візуального програмування.
Відтворення фронтенду: надсилаєте ескізи, макети дизайну, скріншоти або відеозаписи референсних сайтів — і модель може безпосередньо розуміти компонування, колірні схеми, рівень компонентів і логіку взаємодії, генеруючи повний працездатний проєкт фронтенду та точно відтворюючи візуальні деталі на кшталт верстки, колірних схем, анімацій тощо.
Автономне дослідження GUI для відтворення: у поєднанні з фреймворками на кшталт Claude Code, GLM-5V-Turbo завдяки власним потужним можливостям GUI Agent може самостійно досліджувати цільовий сайт, переглядаючи структуру сторінок, вибудовуючи зв’язки між переходами між різними сторінками, збираючи візуальні матеріали та деталі взаємодій. Зрештою, на основі зафіксованих результатів дослідження генерується код для відтворення всього сайту, реалізуючи стрибок від можливості “відтворити, дивлячись на картинку” до “відтворити, досліджуючи GUI”.
Інтерактивне редагування: підтримує додавання/видалення модулів сторінок відповідно до потреб, зміну текстів і стилів, коригування структури компонування; а також може доповнювати інтерактивні функції на кшталт зворотного зв’язку з кнопок, перемикання через модальні вікна, зв’язування форм тощо, реалізуючи візуальну ітераційну правку.
Межі завдань лобстера були значно розширені: наприклад, він може переглядати вебсторінки й документи, генерувати звіти та PPT з насиченим текстом і зображеннями, а також шукати й інтерпретувати складні діаграми, як-от графіки K-ліній.
AutoClaw уже запустив Skill “股票分析师” (аналітик акцій). Використовуючи нативні візуальні можливості GLM-5V-Turbo, лобстер може напряму розуміти траєкторію руху цін, діаграми діапазонів оцінки вартості та графіки з брокерських аналітичних звітів, реалізуючи паралельний збір даних з чотирьох джерел за 60 секунд і формуючи аналітичні звіти з чергуванням тексту й зображень. Наразі в AutoClaw можна перемкнутися на GLM-5V-Turbo та спробувати запитання: “Допоможи мені проаналізувати ціну сьогоднішнього XXX і згенеруй професійний аналітичний звіт”.
Крім візуального програмування та завдань лобстера, GLM-5V-Turbo також досяг значного приросту продуктивності в ширших агентських сценаріях, таких як мультимодальний пошук, поглиблені дослідження, GUI Agent, сприйняття Grounding тощо.
Для цього надано набір офіційних Skills, який охоплює нативні можливості на кшталт image Captioning, visual Grounding, написання на основі документів, відбір резюме, генерація промптів тощо, а також можливості розпізнавання тексту, таблиць, рукописного тексту, формул і генерації “текст → зображення”, побудовані на GLM-OCR та GLM-Image. Це допомагає користувачам розкривати мультимодальний потенціал моделі в більшій кількості сценаріїв. Вищезазначені Skills уже доступні на ClawHub: одним натисканням можна встановити й одразу випробувати всі можливості.