nullСтатья | Альфа-комьюнитиСпособности больших моделей ИИ уже в некоторых аспектах превзошли обычных людей, например, в программировании и математике. Сообщается, что внутри Anthropic почти достигнута 100% автоматизация программирования с помощью ИИ, а Gemini Deep Think от Google в IMO 2025 решил 5 из 6 задач, достигнув уровня золотой медали.Однако в области визуального мышления, даже у передовой Gemini 3 Pro, которая превосходит по уровню, показатели на тесте BabyVision — бенчмарке, оценивающем базовые навыки визуального мышления — лишь на уровне трёхлетнего ребёнка.Почему большие модели сильны в программировании и математике, но слабы в визуальном мышлении? Это связано с ограничениями их «способа мышления», обусловленными особенностями визуальных языковых моделей.

MarsBitNews

2026-04-23 10:10:00

null

Автор | Альфа-комьюнити

Способности больших моделей ИИ уже в некоторых аспектах превзошли обычных людей, например, в программировании и математике. Сообщается, что внутри Anthropic почти достигнута 100% автоматизация программирования с помощью ИИ, а Gemini Deep Think от Google в IMO 2025 решил 5 из 6 задач, достигнув уровня золотой медали.

Однако в области визуального мышления, даже передовая Gemini 3 Pro показывает лишь уровень трёхлетнего ребёнка на тесте BabyVision, который оценивает базовые визуальные навыки.

Почему большие модели сильны в программировании и математике, но слабы в визуальном мышлении? Это связано с ограничениями их «способа мышления»: визуальные языковые модели (VLM) сначала должны преобразовать визуальный вход в язык, а затем выполнять текстовое рассуждение, однако многие визуальные задачи невозможно точно описать словами, что и приводит к слабым возможностям визуального рассуждения модели.

Андрю Дай, работавший в Google DeepMind 14 лет, в сотрудничестве с опытным специалистом по ИИ из Apple Йинфеем Янгом, основали компанию Elorian AI. Их цель — поднять способность моделей к визуальному рассуждению с «детского» уровня до «взрослого», а также дать моделям возможность действительно мыслить в «визуальном пространстве», чтобы бросить вызов физическому миру и достичь AGI.

Elorian AI получила раннее финансирование в размере 55 миллионов долларов от Striker Venture Partners, Menlo Ventures и Altimeter, а также инвесторов, таких как Jeff Dean и 49 Palms.

Пионеры мультимодальных моделей, стремящиеся дать визуальным моделям способность к рассуждению

Андрю Дай — китаец, выпускник Кембриджа по специальности компьютерные науки, доктор по машинному обучению из Эдинбурга. Во время учёбы он проходил стажировку в Google, присоединился к компании в 2012 году и работал там 14 лет, пока не основал собственный стартап.

Источник изображения: LinkedIn Андрю Дай

Недолго после присоединения к Google он вместе с Куок В. Ле написал первую работу о предварительной подготовке языковых моделей и контролируемом дообучении — «Semi-supervised Sequence Learning». Эта статья заложила основу для появления GPT. Его другая важная работа — «Glam: Efficient scaling of language models with mixture-of-experts», которая проложила путь для современной архитектуры MoE.

Источник изображения: Google

Во время работы в Google он участвовал практически во всех крупных проектах по обучению моделей — от Plam до Gemini 1.5 и Gemini 2.5. По поручению Джеффа Дина в 2023 году он начал руководить командой по данным Gemini (включая синтетические данные), которая позже выросла до нескольких сотен человек.

Источник изображения: LinkedIn Йинфея Янга

Соучредитель Elorian AI — Йинфей Ян, работавший в Google Research четыре года, специализировавшийся на мультимодальных представлениях, затем перешёл в Apple, где занимался разработкой мультимодальных моделей.

Источник изображения: arXiv

Его ключевая работа — «Scaling up visual and vision-language representation learning with noisy text supervision», которая продвинула развитие мультимодальных представлений.

Соучредитель Elorian AI также — Сет Нил, ранее ассистент-профессор в Гарварде, эксперт в области данных и ИИ.

Почему важно обсуждать статьи, написанные соучредителями Elorian AI? Потому что их задача — не просто инженерное улучшение, а фундаментальное обновление архитектуры: перейти от текстового интеллекта к визуальному.

На сегодняшний день, несмотря на отличные результаты в текстовых задачах, даже самые передовые мультимодальные модели всё равно сталкиваются с трудностями в базовой задаче визуального выравнивания (Visual grounding).

Например, как точно вставить деталь в механическую систему так, чтобы она работала точнее и эффективнее? Эти пространственные физические задачи очень просты для школьников, но для существующих мультимодальных моделей — очень сложны.

Ответ лежит в биологии: в человеческом мозге визуальный компонент — фундаментальная основа многих мыслительных процессов. Человеческое использование визуальных и пространственных рассуждений гораздо древнее, чем логика на языке.

Например, чтобы объяснить кому-то, как пройти лабиринт, словами можно запутать, а набросок — понять за секунду.

И даже у птицы, которая не использует язык, есть способность распознавать и рассуждать о географических особенностях, что позволяет ей совершать глобальные миграции. Это сильный сигнал: для настоящего прогресса в рассуждении машин, визуальное восприятие — вероятно, правильное направление развития.

Представьте, если с самого начала моделирования попытаться встроить в ИИ эти биологические визуальные инстинкты, создав мультимодальную модель, которая одновременно понимает и обрабатывает текст, изображения, видео и аудио — тогда она сможет обладать способностью к визуальному пониманию. Андрю Дай и его команда хотят создать «естественного сенсора», научить машину не только «видеть» мир, но и «понимать» его.

По мнению Андрю Дая и его команды, глубокое понимание реального «физического мира» — ключ к следующему скачку в развитии машинного интеллекта и достижению «визуального универсального ИИ (Visual AGI)».

Постпостроенное рассуждение в VLM — не правильный путь к визуальному рассуждению

Ранее не было команд, которые бы уже не пытались этого сделать. В частности, Андрю Дай в составе команды Gemini был в числе лидеров в мультимодальной области. Но традиционные мультимодальные модели всё ещё основаны на VLM (визуально-языковых моделях), которые работают по схеме «двух этапов»: сначала визуальный вход преобразуется в язык, а затем выполняется текстовое рассуждение (иногда с помощью внешних инструментов).

Однако такой подход с отложенным рассуждением имеет свои ограничения: он легко вызывает иллюзии модели, а многие визуальные задачи вообще невозможно точно описать словами.

Кроме того, модели вроде NanoBanana, специализирующиеся на генерации изображений, превосходны в мультимодальной генерации, но их генеративные способности не равны рассуждению — их «мышление» всё равно основано на языковых моделях, а не на нативных рассуждениях.

Чтобы создать модель, способную по-настоящему понять пространственные, структурные и сложные отношения в визуальном мире, необходимо радикально переосмыслить базовые технологии.

Как это сделать? Основатели Elorian AI, имея многолетний опыт в мультимодальной области, предлагают: объединить мультимодальное обучение с новой архитектурой, специально разработанной для мультимодальных рассуждений. Они отвергают традиционный подход, при котором изображение считается статичным входом, и вместо этого обучают модель напрямую взаимодействовать с визуальными представлениями (Visual representations), самостоятельно анализировать их структуру, отношения и физические ограничения.

Конечно, важнейший элемент — данные. Они определяют эффективность и успех модели.

Андрю Дай отметил, что они уделяют особое внимание качеству данных, их смешению, источникам и разнообразию, а также проводят масштабные и глубокие работы по использованию синтетических данных для реконструкции цепочек рассуждений в визуическом пространстве.

Все эти усилия должны привести к созданию новой системы ИИ, которая перейдёт от простого восприятия к высокоуровневому визуальному «рассуждению».

Эта система может стать базовой моделью визуального рассуждения — универсальной, но обладающей выдающимися способностями в конкретных областях, таких как визуальное рассуждение.

Будучи универсальной базовой моделью, она найдёт широкое применение.

Например, в робототехнике она может стать основой для систем, способных автономно работать в незнакомых условиях.

Например, робот, отправленный для устранения аварийной ситуации в опасной среде, должен быстро и точно принимать решения. Без модели глубокого рассуждения ему было бы опасно управлять сложными механизмами. А с развитой моделью он сможет подумать: «Перед тем, как управлять этим панелем, лучше бы сначала активировать защитный механизм, потянув за этот рычаг».

В области управления катастрофами такие модели смогут анализировать спутниковые снимки для мониторинга и предотвращения лесных пожаров; в инженерии — точно интерпретировать сложные чертежи и схемы. Важность этого в том, что законы физики и работа реального мира принципиально отличаются от чисто программных решений: нельзя просто написать несколько строк кода, чтобы спроектировать крыло самолёта.

Однако сейчас модели и возможности Elorian AI пока остаются на бумаге. Они планируют выпустить в 2026 году модель, достигшую SOTA в области визуального рассуждения, чтобы проверить свои заявления.

Когда ИИ действительно приобретёт «визуальное рассуждение», как это изменит физический мир?

Чтобы ИИ мог понимать и влиять на реальный физический мир, технологии развивались уже несколько раз.

От классического компьютерного зрения до генеративных моделей и мультимодальных систем, а также моделей мира — понимание физической реальности постоянно углубляется.

А базовые модели визуального рассуждения, скорее всего, пойдут ещё дальше, потому что способность к визуальному рассуждению позволит ИИ глубже понять физический мир и достичь более высокого уровня машинного интеллекта.

Представьте, что модели с глубоким пониманием и точными операциями в сфере embodied intelligence и аппаратного обеспечения ИИ «подзарядятся» — их применение значительно расширится. Например, роботы смогут выполнять более надёжное промышленное производство или медицинское обслуживание; аппаратное обеспечение ИИ, особенно носимые устройства, станут умнее и смогут выступать в роли личных ассистентов.

Но в основе этих технологий всё равно лежат данные. Как отметил Андрю Дай, качество данных, их смешение, источники и разнообразие — ключ к эффективности модели.

В области физического ИИ китайские компании в моделях и данных уже приближаются к мировому лидеру. Если удастся использовать преимущества данных и более богатых сценариев применения для ускорения развития, то в области embodied intelligence и AI hardware — в промышленности, медицине и быту — есть все шансы достичь мирового уровня и даже стать ведущими на глобальном рынке.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
Gate13thAnniversaryLive
1.24M Популярность
#
WCTCTradingChallengeShare8MUSDT
804.84K Популярность
#
BitcoinBouncesBack
227.5K Популярность
#
IsraelStrikesIranBTCPlunges
30.66K Популярность
#
EthereumMemeSeasonReturns
2.01M Популярность

Закрепить

Карта сайта

Использование «визуального мышления» для исследования физического мира AGI, ElorianAI привлекла 55 миллионов долларов финансирования

Популярные темы

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Закрепить