Використовуючи «зорове мислення» для дослідження фізичного світу AGI, ElorianAI залучила 55 мільйонів доларів фінансування

нуль

Письмо | Альфа-спільнота

Здатності великих моделей штучного інтелекту вже в деяких аспектах перевищують можливості звичайної людини, наприклад, у програмуванні та математиці. Повідомляється, що внутрішньо Anthropic майже досягла 100% автоматичного програмування за допомогою ШІ, а Google Gemini Deep Think у IMO 2025 розв’язала 5 із 6 задач, досягнувши рівня золотої медалі.

Однак у візуальному мисленні, навіть провідна Gemini 3 Pro, показала лише рівень трирічної дитини на тесті BabyVision, який оцінює базові візуальні логічні здібності.

Чому великі моделі сильні у програмуванні та математиці, але слабкі у візуальному мисленні? Це через обмеження їх “мислення”: візуальні мовні моделі (VLM) потрібно спершу перетворити візуальний ввід у мову, а потім виконувати текстове мислення. Однак багато візуальних завдань просто не можна точно описати словами, що і спричиняє низьку здатність моделей до візуального мислення.

Андрю Дай, який працював у Google DeepMind 14 років, у співпраці з досвідченим експертом з AI з Apple Yinfei Yang, заснував компанію Elorian AI. Їхня мета — підняти здатність моделей до візуального мислення з “дитячого” рівня до “дорослого”, і зробити так, щоб модель могла справді мислити “у візуальному просторі”, щоб вплинути на фізичний світ і досягти AGI у цій сфері.

Elorian AI отримала початкове фінансування у 55 мільйонів доларів від Striker Venture Partners, Menlo Ventures та Altimeter, у співучасті з 49 Palms та провідними AI-науковцями, включаючи Jeff Dean.

Першопрохідник у мультимодальних моделях, щоб надати візуальним моделям здатність до мислення

Як китайський Андрю Дай, він має бакалавра з комп’ютерних наук із Кембриджу та доктора з машинного навчання з Едінбургу. Під час аспірантури проходив стажування у Google, у 2012 році приєднався до компанії і працював там 14 років, доки не заснував свою компанію.

Джерело зображення: LinkedIn Андрю Дая

Недовго після приєднання до Google він спільно з Quoc V. Le написав перший науковий працьовий документ про попереднє навчання мовних моделей і контрольоване тонке налаштування — «Semi-supervised Sequence Learning». Ця робота заклала основу для появи GPT. Інша його важлива робота — «Glam: Efficient scaling of language models with mixture-of-experts», яка відкрила шлях до сучасної архітектури MoE.

Джерело зображення: Google

Під час роботи у Google він глибоко залучався до тренування майже всіх великих моделей, від Plam до Gemini 1.5 і Gemini 2.5. За вказівкою Jeff Dean у 2023 році він почав керувати командою, що займалася даними Gemini (включно з синтезованими даними), і згодом команда розрослася до кількох сотень людей.

Джерело зображення: LinkedIn Yinfei Yang

Співзасновником Elorian AI є Yinfei Yang, який працював у Google Research чотири роки, зосереджуючись на мультимодальних представленнях, а потім приєднався до Apple, де займався розробкою мультимодальних моделей.

Джерело зображення: arXiv

Його ключовий дослідницький внесок — «Scaling up visual and vision-language representation learning with noisy text supervision», що сприяв розвитку мультимодального представлення.

Співзасновник Elorian AI також — Seth Neel, колишній доцент Гарвардського університету, експерт у галузі даних і AI.

Чому важливо обговорювати публікації засновників Elorian AI? Тому що їхня мета — не просто технічна оптимізація, а фундаментальна зміна архітектури, щоб підняти AI з текстової розумової здатності до візуальної.

Зараз стан AI-моделей такий, що, хоча вони добре справляються з текстовими завданнями, навіть найпередовіші мультимодальні моделі все ще зазнають поразки у найпростіших завданнях — (Visual grounding).

Наприклад, як точно вставити деталь у механізм так, щоб він працював точніше і ефективніше? Такі просторово-фізичні задачі для учнів початкової школи — легкі, але для сучасних мультимодальних моделей — дуже складні.

Це потрібно шукати у біології: у людському мозку візуальні образи — основа багатьох мисленнєвих процесів. Людський досвід використання візуального і просторового мислення набагато давніший за логіку мови.

Наприклад, щоб навчити когось пройти лабіринт, словами можна заплутати, а намалювати схему — і все стане зрозуміло миттєво.

Ще один приклад — навіть птах, не володіючи мовою, здатна за допомогою зору розпізнавати і робити висновки про географічні особливості, що дозволяє їй здійснювати глобальні міграції. Це сильний сигнал, що для просування машинного мислення в напрямку справжнього розвитку, візуальне сприйняття — ймовірно, правильний шлях.

Уявіть, якщо з самого початку побудови моделей закласти цю біологічну візуальну інстинктивність у гени AI, створивши мультимодальну модель, яка одночасно розуміє і обробляє текст, зображення, відео та аудіо — вона отримає здатність до візуального розуміння. Андрю Дай і його команда прагнуть створити природжений “синестетик”, який навчатиме машину не лише “бачити” світ, а й “розуміти” його.

На думку Андрю Дая та його команди, глибоке усвідомлення реального “фізичного світу” — ключ до створення наступного покоління машинного інтелекту і досягнення “візуального універсального штучного інтелекту (Visual AGI)”.

Постмодульні VLM — не правильний шлях до візуального мислення

Раніше неодноразово команда намагалася це зробити. Насправді, Андрю Дай у команді Gemini вже був у провідних у мультимодальній галузі. Але традиційні мультимодальні моделі все ще базуються на VLM (візуально-мовних моделях), що працюють за двоступеневою логікою: спершу перетворюють візуальний ввід у мову, а потім виконують текстове мислення (іноді з використанням зовнішніх інструментів).

Однак таке “заднє” мислення має обмеження: по-перше, воно сприяє появі “галюцинацій” моделі, по-друге, багато візуальних завдань просто не можна точно описати словами.

Крім того, моделі NanoBanana для генерації зображень мають чудові здібності у мультимодальній генерації, але їхні можливості генерації і мислення — різні речі. Перед генерацією модель “думає” за допомогою мовних моделей, а не має вродженої здатності до мислення.

Щоб створити модель, яка справді здатна глибоко аналізувати простір, структури і складні взаємозв’язки у візуальному світі, потрібно радикально змінити технологічний підхід.

Як саме? Засновники Elorian AI, які мають багаторічний досвід у мультимодальній галузі, пропонують глибоку інтеграцію мультимодального навчання з новою архітектурою, спеціально розробленою для мультимодального мислення. Вони відмовилися від традиційного підходу, коли зображення вважається статичним входом, і навчили модель безпосередньо взаємодіяти з візуальними репрезентаціями (Visual representations), щоб самостійно аналізувати структури, взаємозв’язки і фізичні обмеження.

Ще один важливий аспект — дані. Вони визначають якість і успіх моделей.

Андрю Дай зазначає, що вони приділяють особливу увагу якості даних, їхній змішуваності, джерелам і різноманітності, і здійснюють інновації у зборі даних, у тому числі масштабно і глибоко використовуючи синтезовані дані для реконструкції ланцюжка візуального мислення.

Зусилля у цій сфері мають створити нову AI-систему, здатну перейти від простого “сприйняття” до високорівневого “мислення” у візуальній сфері.

Ця система може стати базовою моделлю для візуального мислення — універсальною, але з високою спеціалізацією у візуальній логіці.

Якщо вона стане універсальною базовою моделлю, її застосування буде широким.

Наприклад, у робототехніці вона може стати основою для систем, здатних автономно працювати у незнайомих середовищах.

Наприклад, у надзвичайних ситуаціях — щоб швидко і точно реагувати на небезпечні ситуації, наприклад, у небезпечних умовах. Без глибокої здатності до мислення робот не зможе швидко і правильно реагувати, натискаючи кнопки або керуючи важелями. А якщо він матиме потужну здатність до логічного мислення, він зможе подумати: “Перед тим, як діяти з цим панеллю, можливо, потрібно спершу натиснути цей важіль, щоб активувати захисний механізм.”

У сфері управління катастрофами, модель із візуальним мисленням може аналізувати супутникові знімки для моніторингу і запобігання лісовим пожежам; у технічній галузі — точно розуміти складні візуальні креслення і схеми систем. Це важливо, оскільки закони фізичного світу суттєво відрізняються від чистого коду: не можна просто написати кілька рядків коду і створити крило літака.

Зараз моделі Elorian AI і їхні можливості ще перебувають на рівні концепцій, але вони планують у 2026 році представити модель, яка досягне SOTA у візуальному мисленні, щоб перевірити свої здобутки.

Як зміниться фізичний світ, коли AI справді отримає “візуальне мислення”?

Щоб AI міг розуміти і впливати на реальний фізичний світ, технології вже пройшли кілька етапів розвитку.

Від традиційного CV (комп’ютерного зору) ідентифікації зображень, до генеративних моделей і мультимодальних систем, і до моделей світу — розуміння фізичного світу постійно поглиблюється.

А базові моделі візуального мислення, ймовірно, зроблять ще один крок уперед, оскільки здатність до візуального мислення дозволить AI глибше розуміти фізику світу і підвищити рівень машинного інтелекту.

Уявіть, якщо моделі з глибоким розумінням і точним управлінням почнуть застосовуватися у сферах робототехніки, промислового виробництва або медицини; у сфері AI-апаратури, особливо носимих пристроях, вони стануть більш розумними особистими асистентами.

Однак у фундаменті цих технологій — дані. Як і раніше, Андрю Дай підкреслює, що якість даних, їхня змішуваність, джерела і різноманітність визначають успіх моделей.

У галузі фізичного AI китайські компанії у моделях і даних вже набагато ближчі до світових лідерів, ніж текстові великі моделі. Якщо вони зможуть швидко і ефективно використовувати переваги багатогранних даних і застосувань, то зможуть швидше оновлюватися і досягти провідних позицій у сферах фізичного AI, промисловості, медицини і домашнього застосування, а також створити світові компанії рівня світового масштабу.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити