Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Google Vision Banana: момент GPT-3 в компьютерном зрении? Модель на основе исходных изображений превосходит специализированные модели понимания визуальных данных
Согласно мониторингу Beating, команда Google (включая Хэ Кайминя, Ся Сайнин и других) опубликовала статью, в которой предложила Vision Banana, — легкое дообучение на основе команд для собственной модели генерации изображений Nano Banana Pro (то есть Gemini 3 Pro Image), превращающее её в универсальную модель визуального понимания. Основной подход заключается в унификации всех визуальных задач через параметризацию их вывода в виде RGB-изображений, что позволяет выполнять задачи сегментации, оценки глубины, определения нормалей поверхности и другие восприятия посредством генерации изображений, без необходимости разрабатывать отдельные архитектуры или функции потерь для каждой задачи.
Оценка охватывает две основные категории задач: сегментацию изображений и 3D-геометрическое восстановление. В сегментации, семантическая сегментация (обозначение каждого пикселя изображения с его классом, например «проезжая часть», «пешеход», «автомобиль») на Cityscapes превосходит специализированную модель сегментации SAM на 4.7 процентных пункта; выражение сегментации по команде (по естественному языковому описанию находить и сегментировать соответствующий объект, например «собака в шляпе слева») также превосходит SAM 3 Agent. Но в задачах экземплярной сегментации (разделение разных объектов одного класса, например выделение пяти собак на изображении) модель всё ещё уступает SAM 3. В области 3D, метрика оценки глубины (предсказание реального физического расстояния от каждого пикселя до камеры по одному изображению) достигает в среднем точности 0.929 по четырём стандартным наборам данных, что выше специализированной модели Depth Anything V3 с показателем 0.918, причём модель обучена полностью на синтетических данных без использования реальных данных о глубине и при этом не требует параметров камеры при выводе. Оценка нормалей поверхности (определение ориентации поверхности объектов) достигла лучших результатов на трёх внутренних бенчмарках.
Дообучение заключается в добавлении небольшого количества данных по визуальным задачам в исходные данные для обучения генерации изображений, при этом способность модели к генерации изображений практически не страдает: в оценке качества генерации она сравнима с оригинальной Nano Banana Pro. В статье считают, что роль предварительной тренировки модели на генерацию изображений в области визуальных задач аналогична роли предварительной тренировки на генерацию текста в языковой сфере: по мере обучения генерации изображений модель усваивает внутренние представления, необходимые для понимания изображений, а дообучение по командам — лишь способ их активировать.