Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
【AI+2513】Объявление о выпуске модели GLM-5V-Turbo — базовой мультимодальной модели для визуального программирования и кодирования
Одна из лидеров в области ИИ в материковом Китае — Zhipu (02513) В четверг (2-го числа) опубликовала модель базиса мультимодального программирования для визуального программирования Coding GLM-5V-Turbo。
Zhipu указывает, что GLM-5V-Turbo на этапе предварительного обучения глубоко объединяет визуальные и текстовые возможности: программирование больше не ограничивается только вводом чистого текста. Модель понимает макеты, скриншоты и веб-интерфейсы и на их основе генерирует полностью работоспособный код — по-настоящему «видит изображение» и «умеет писать код».
Три особенности GLM-5V-Turbo
Zhipu отмечает, что на бенчмарках по мультимодальному Coding, агентным (Agentic) задачам и по измерениям чисто текстового Coding GLM-5V-Turbo демонстрирует лидирующие результаты при меньшем размере.
GLM-5V-Turbo также показывает лидирующие результаты по таким бенчмаркам, как восстановление по макету, генерация визуального кода, мультимодальный поиск и ответы на вопросы, а также визуальное зондирование; и в бенчмарках, оценивающих реальные возможности управления средой GUI, таких как AndroidWorld и WebVoyager, результаты также особенно высокие.
В части возможностей Coding по чистому тексту GLM-5V-Turbo сохраняет стабильную производительность во всех трех ключевых бенчмарках тестов CC-Bench-V2: Backend, Frontend и Repo Exploration, что указывает на то, что после внедрения визуальных способностей уровень чисто текстового программирования и рассуждения остается на эквивалентном уровне.
Согласно описанию, прорыв в производительности GLM-5V-Turbo обеспечен систематическими улучшениями на четырех уровнях: архитектуре модели, методах обучения, конструкциях данных и инструментальной цепочке:
Для отраслевых вызовов, связанных с дефицитом данных по Agent’ам и сложностью верификации, Zhipu построила многоуровневую систему — от распознавания элементов до прогнозирования последовательностных действий. Она основана на синтетических средах для крупномасштабной генерации управляемых и верифицируемых обучающих данных, а также с самого этапа предварительного обучения внедряет мета-возможности Agentic (например, добавляет данные GUI Agent PRM в предварительное обучение, чтобы снизить галлюцинации). Параллельно проводится исследование асимметричной оптимизации: с помощью мультимодальной оценки задач «раскачивают» более сильные возможности Agent’а.
Можно напрямую Cap-图 программировать
В приложениях Zhipu приводит пример:
GLM-5V-Turbo особенно силен в ключевых сценариях визуального программирования.
Воспроизведение на фронтенде: отправляйте эскизы, макеты, а также скриншоты или записи экрана референсных сайтов — и модель сможет напрямую понять верстку, сочетания цветов, уровень компонентов и логику взаимодействий; затем сгенерирует полный работоспособный фронтенд-проект, точно воссоздавая визуальные детали вроде типографики, цветов и анимаций.
Автономное исследование GUI и воспроизведение: в сочетании с фреймворками вроде Claude Code GLM-5V-Turbo благодаря собственной мощной способности GUI Agent может самостоятельно исследовать целевой сайт: просматривает структуру страниц, выстраивает связи переходов между страницами, собирает визуальные материалы и подробности взаимодействий. В итоге, основываясь на зафиксированных результатах исследования, напрямую генерирует код, воспроизводя весь сайт — переход от «воспроизведения по картинке» к «воспроизведению через GUI-исследование».
Интерактивное редактирование: поддерживается добавление/удаление модулей страниц по требованиям, изменение текстов и стилей, настройка структуры верстки; а также можно дополнять интерактивные функции вроде отзывов на кнопки, переключения модальных окон, связки форм и т. п., обеспечивая визуальное итеративное редактирование.
Границы задач «лухань-чжуань» (龙蝦) были существенно расширены: например, можно просматривать веб-страницы и документы, генерировать насыщенные иллюстрациями отчеты и PPT, а также запрашивать и интерпретировать сложные диаграммы вроде K-линий.
AutoClaw запустила Skill «Stock Analyst (股票分析师)». Используя родные визуальные возможности GLM-5V-Turbo, «лухань-чжуань» (龙蝦) может напрямую понимать траекторию движения линии цены акций, диаграммы диапазонов оценки и графики из отчетов брокеров, реализуя параллельный сбор данных из четырех источников за 60 секунд и выдавая аналитические отчеты с чередованием текста и графики. Сейчас в AutoClaw можно переключиться на GLM-5V-Turbo и попробовать задать вопрос: «Помоги проанализировать цену акций XXX сегодня и сгенерируй профессиональный аналитический отчет».
Помимо визуального программирования и задач «лухань-чжуань» (龙蝦), GLM-5V-Turbo также добился заметного прироста производительности в более широких агентных сценариях, таких как мультимодальный поиск, углубленные исследования, GUI Agent, а также сенсорное Grounding и т. п.
Для этого предоставлен набор официальных Skills, охватывающих нативные возможности вроде image Captioning, визуального Grounding, написания на основе документов, отбора резюме, генерации подсказок (prompt) и т. п., а также текстовое распознавание, распознавание таблиц, распознавание рукописного текста, распознавание формул и возможности «текст-в-картинку», построенные на базе GLM-OCR и GLM-Image. Это помогает пользователям раскрывать мультимодальный потенциал модели в большем числе сценариев. Указанные Skills уже доступны в ClawHub: одной установкой можно испытать все возможности.