Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Использование «визуального мышления» для исследования физического мира AGI, ElorianAI привлекла 55 миллионов долларов финансирования
null
Автор | Альфа-комьюнити
Способности больших моделей ИИ уже в некоторых аспектах превзошли обычных людей, например, в программировании и математике. Сообщается, что внутри Anthropic почти достигнута 100% автоматизация программирования с помощью ИИ, а Gemini Deep Think от Google в IMO 2025 решил 5 из 6 задач, достигнув уровня золотой медали.
Однако в области визуального мышления, даже передовая Gemini 3 Pro показывает лишь уровень трёхлетнего ребёнка на тесте BabyVision, который оценивает базовые визуальные навыки.
Почему большие модели сильны в программировании и математике, но слабы в визуальном мышлении? Это связано с ограничениями их «способа мышления»: визуальные языковые модели (VLM) сначала должны преобразовать визуальный вход в язык, а затем выполнять текстовое рассуждение, однако многие визуальные задачи невозможно точно описать словами, что и приводит к слабым возможностям визуального рассуждения модели.
Андрю Дай, работавший в Google DeepMind 14 лет, в сотрудничестве с опытным специалистом по ИИ из Apple Йинфеем Янгом, основали компанию Elorian AI. Их цель — поднять способность моделей к визуальному рассуждению с «детского» уровня до «взрослого», а также дать моделям возможность действительно мыслить в «визуальном пространстве», чтобы бросить вызов физическому миру и достичь AGI.
Elorian AI получила раннее финансирование в размере 55 миллионов долларов от Striker Venture Partners, Menlo Ventures и Altimeter, а также инвесторов, таких как Jeff Dean и 49 Palms.
Пионеры мультимодальных моделей, стремящиеся дать визуальным моделям способность к рассуждению
Андрю Дай — китаец, выпускник Кембриджа по специальности компьютерные науки, доктор по машинному обучению из Эдинбурга. Во время учёбы он проходил стажировку в Google, присоединился к компании в 2012 году и работал там 14 лет, пока не основал собственный стартап.
Источник изображения: LinkedIn Андрю Дай
Недолго после присоединения к Google он вместе с Куок В. Ле написал первую работу о предварительной подготовке языковых моделей и контролируемом дообучении — «Semi-supervised Sequence Learning». Эта статья заложила основу для появления GPT. Его другая важная работа — «Glam: Efficient scaling of language models with mixture-of-experts», которая проложила путь для современной архитектуры MoE.
Источник изображения: Google
Во время работы в Google он участвовал практически во всех крупных проектах по обучению моделей — от Plam до Gemini 1.5 и Gemini 2.5. По поручению Джеффа Дина в 2023 году он начал руководить командой по данным Gemini (включая синтетические данные), которая позже выросла до нескольких сотен человек.
Источник изображения: LinkedIn Йинфея Янга
Соучредитель Elorian AI — Йинфей Ян, работавший в Google Research четыре года, специализировавшийся на мультимодальных представлениях, затем перешёл в Apple, где занимался разработкой мультимодальных моделей.
Источник изображения: arXiv
Его ключевая работа — «Scaling up visual and vision-language representation learning with noisy text supervision», которая продвинула развитие мультимодальных представлений.
Соучредитель Elorian AI также — Сет Нил, ранее ассистент-профессор в Гарварде, эксперт в области данных и ИИ.
Почему важно обсуждать статьи, написанные соучредителями Elorian AI? Потому что их задача — не просто инженерное улучшение, а фундаментальное обновление архитектуры: перейти от текстового интеллекта к визуальному.
На сегодняшний день, несмотря на отличные результаты в текстовых задачах, даже самые передовые мультимодальные модели всё равно сталкиваются с трудностями в базовой задаче визуального выравнивания (Visual grounding).
Например, как точно вставить деталь в механическую систему так, чтобы она работала точнее и эффективнее? Эти пространственные физические задачи очень просты для школьников, но для существующих мультимодальных моделей — очень сложны.
Ответ лежит в биологии: в человеческом мозге визуальный компонент — фундаментальная основа многих мыслительных процессов. Человеческое использование визуальных и пространственных рассуждений гораздо древнее, чем логика на языке.
Например, чтобы объяснить кому-то, как пройти лабиринт, словами можно запутать, а набросок — понять за секунду.
И даже у птицы, которая не использует язык, есть способность распознавать и рассуждать о географических особенностях, что позволяет ей совершать глобальные миграции. Это сильный сигнал: для настоящего прогресса в рассуждении машин, визуальное восприятие — вероятно, правильное направление развития.
Представьте, если с самого начала моделирования попытаться встроить в ИИ эти биологические визуальные инстинкты, создав мультимодальную модель, которая одновременно понимает и обрабатывает текст, изображения, видео и аудио — тогда она сможет обладать способностью к визуальному пониманию. Андрю Дай и его команда хотят создать «естественного сенсора», научить машину не только «видеть» мир, но и «понимать» его.
По мнению Андрю Дая и его команды, глубокое понимание реального «физического мира» — ключ к следующему скачку в развитии машинного интеллекта и достижению «визуального универсального ИИ (Visual AGI)».
Постпостроенное рассуждение в VLM — не правильный путь к визуальному рассуждению
Ранее не было команд, которые бы уже не пытались этого сделать. В частности, Андрю Дай в составе команды Gemini был в числе лидеров в мультимодальной области. Но традиционные мультимодальные модели всё ещё основаны на VLM (визуально-языковых моделях), которые работают по схеме «двух этапов»: сначала визуальный вход преобразуется в язык, а затем выполняется текстовое рассуждение (иногда с помощью внешних инструментов).
Однако такой подход с отложенным рассуждением имеет свои ограничения: он легко вызывает иллюзии модели, а многие визуальные задачи вообще невозможно точно описать словами.
Кроме того, модели вроде NanoBanana, специализирующиеся на генерации изображений, превосходны в мультимодальной генерации, но их генеративные способности не равны рассуждению — их «мышление» всё равно основано на языковых моделях, а не на нативных рассуждениях.
Чтобы создать модель, способную по-настоящему понять пространственные, структурные и сложные отношения в визуальном мире, необходимо радикально переосмыслить базовые технологии.
Как это сделать? Основатели Elorian AI, имея многолетний опыт в мультимодальной области, предлагают: объединить мультимодальное обучение с новой архитектурой, специально разработанной для мультимодальных рассуждений. Они отвергают традиционный подход, при котором изображение считается статичным входом, и вместо этого обучают модель напрямую взаимодействовать с визуальными представлениями (Visual representations), самостоятельно анализировать их структуру, отношения и физические ограничения.
Конечно, важнейший элемент — данные. Они определяют эффективность и успех модели.
Андрю Дай отметил, что они уделяют особое внимание качеству данных, их смешению, источникам и разнообразию, а также проводят масштабные и глубокие работы по использованию синтетических данных для реконструкции цепочек рассуждений в визуическом пространстве.
Все эти усилия должны привести к созданию новой системы ИИ, которая перейдёт от простого восприятия к высокоуровневому визуальному «рассуждению».
Эта система может стать базовой моделью визуального рассуждения — универсальной, но обладающей выдающимися способностями в конкретных областях, таких как визуальное рассуждение.
Будучи универсальной базовой моделью, она найдёт широкое применение.
Например, в робототехнике она может стать основой для систем, способных автономно работать в незнакомых условиях.
Например, робот, отправленный для устранения аварийной ситуации в опасной среде, должен быстро и точно принимать решения. Без модели глубокого рассуждения ему было бы опасно управлять сложными механизмами. А с развитой моделью он сможет подумать: «Перед тем, как управлять этим панелем, лучше бы сначала активировать защитный механизм, потянув за этот рычаг».
В области управления катастрофами такие модели смогут анализировать спутниковые снимки для мониторинга и предотвращения лесных пожаров; в инженерии — точно интерпретировать сложные чертежи и схемы. Важность этого в том, что законы физики и работа реального мира принципиально отличаются от чисто программных решений: нельзя просто написать несколько строк кода, чтобы спроектировать крыло самолёта.
Однако сейчас модели и возможности Elorian AI пока остаются на бумаге. Они планируют выпустить в 2026 году модель, достигшую SOTA в области визуального рассуждения, чтобы проверить свои заявления.
Когда ИИ действительно приобретёт «визуальное рассуждение», как это изменит физический мир?
Чтобы ИИ мог понимать и влиять на реальный физический мир, технологии развивались уже несколько раз.
От классического компьютерного зрения до генеративных моделей и мультимодальных систем, а также моделей мира — понимание физической реальности постоянно углубляется.
А базовые модели визуального рассуждения, скорее всего, пойдут ещё дальше, потому что способность к визуальному рассуждению позволит ИИ глубже понять физический мир и достичь более высокого уровня машинного интеллекта.
Представьте, что модели с глубоким пониманием и точными операциями в сфере embodied intelligence и аппаратного обеспечения ИИ «подзарядятся» — их применение значительно расширится. Например, роботы смогут выполнять более надёжное промышленное производство или медицинское обслуживание; аппаратное обеспечение ИИ, особенно носимые устройства, станут умнее и смогут выступать в роли личных ассистентов.
Но в основе этих технологий всё равно лежат данные. Как отметил Андрю Дай, качество данных, их смешение, источники и разнообразие — ключ к эффективности модели.
В области физического ИИ китайские компании в моделях и данных уже приближаются к мировому лидеру. Если удастся использовать преимущества данных и более богатых сценариев применения для ускорения развития, то в области embodied intelligence и AI hardware — в промышленности, медицине и быту — есть все шансы достичь мирового уровня и даже стать ведущими на глобальном рынке.