Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Використовуючи «зорове мислення» для дослідження фізичного світу AGI, ElorianAI залучила 55 мільйонів доларів фінансування
нуль
Письмо | Альфа-спільнота
Здатності великих моделей штучного інтелекту вже в деяких аспектах перевищують можливості звичайної людини, наприклад, у програмуванні та математиці. Повідомляється, що внутрішньо Anthropic майже досягла 100% автоматичного програмування за допомогою ШІ, а Google Gemini Deep Think у IMO 2025 розв’язала 5 із 6 задач, досягнувши рівня золотої медалі.
Однак у візуальному мисленні, навіть провідна Gemini 3 Pro, показала лише рівень трирічної дитини на тесті BabyVision, який оцінює базові візуальні логічні здібності.
Чому великі моделі сильні у програмуванні та математиці, але слабкі у візуальному мисленні? Це через обмеження їх “мислення”: візуальні мовні моделі (VLM) потрібно спершу перетворити візуальний ввід у мову, а потім виконувати текстове мислення. Однак багато візуальних завдань просто не можна точно описати словами, що і спричиняє низьку здатність моделей до візуального мислення.
Андрю Дай, який працював у Google DeepMind 14 років, у співпраці з досвідченим експертом з AI з Apple Yinfei Yang, заснував компанію Elorian AI. Їхня мета — підняти здатність моделей до візуального мислення з “дитячого” рівня до “дорослого”, і зробити так, щоб модель могла справді мислити “у візуальному просторі”, щоб вплинути на фізичний світ і досягти AGI у цій сфері.
Elorian AI отримала початкове фінансування у 55 мільйонів доларів від Striker Venture Partners, Menlo Ventures та Altimeter, у співучасті з 49 Palms та провідними AI-науковцями, включаючи Jeff Dean.
Першопрохідник у мультимодальних моделях, щоб надати візуальним моделям здатність до мислення
Як китайський Андрю Дай, він має бакалавра з комп’ютерних наук із Кембриджу та доктора з машинного навчання з Едінбургу. Під час аспірантури проходив стажування у Google, у 2012 році приєднався до компанії і працював там 14 років, доки не заснував свою компанію.
Джерело зображення: LinkedIn Андрю Дая
Недовго після приєднання до Google він спільно з Quoc V. Le написав перший науковий працьовий документ про попереднє навчання мовних моделей і контрольоване тонке налаштування — «Semi-supervised Sequence Learning». Ця робота заклала основу для появи GPT. Інша його важлива робота — «Glam: Efficient scaling of language models with mixture-of-experts», яка відкрила шлях до сучасної архітектури MoE.
Джерело зображення: Google
Під час роботи у Google він глибоко залучався до тренування майже всіх великих моделей, від Plam до Gemini 1.5 і Gemini 2.5. За вказівкою Jeff Dean у 2023 році він почав керувати командою, що займалася даними Gemini (включно з синтезованими даними), і згодом команда розрослася до кількох сотень людей.
Джерело зображення: LinkedIn Yinfei Yang
Співзасновником Elorian AI є Yinfei Yang, який працював у Google Research чотири роки, зосереджуючись на мультимодальних представленнях, а потім приєднався до Apple, де займався розробкою мультимодальних моделей.
Джерело зображення: arXiv
Його ключовий дослідницький внесок — «Scaling up visual and vision-language representation learning with noisy text supervision», що сприяв розвитку мультимодального представлення.
Співзасновник Elorian AI також — Seth Neel, колишній доцент Гарвардського університету, експерт у галузі даних і AI.
Чому важливо обговорювати публікації засновників Elorian AI? Тому що їхня мета — не просто технічна оптимізація, а фундаментальна зміна архітектури, щоб підняти AI з текстової розумової здатності до візуальної.
Зараз стан AI-моделей такий, що, хоча вони добре справляються з текстовими завданнями, навіть найпередовіші мультимодальні моделі все ще зазнають поразки у найпростіших завданнях — (Visual grounding).
Наприклад, як точно вставити деталь у механізм так, щоб він працював точніше і ефективніше? Такі просторово-фізичні задачі для учнів початкової школи — легкі, але для сучасних мультимодальних моделей — дуже складні.
Це потрібно шукати у біології: у людському мозку візуальні образи — основа багатьох мисленнєвих процесів. Людський досвід використання візуального і просторового мислення набагато давніший за логіку мови.
Наприклад, щоб навчити когось пройти лабіринт, словами можна заплутати, а намалювати схему — і все стане зрозуміло миттєво.
Ще один приклад — навіть птах, не володіючи мовою, здатна за допомогою зору розпізнавати і робити висновки про географічні особливості, що дозволяє їй здійснювати глобальні міграції. Це сильний сигнал, що для просування машинного мислення в напрямку справжнього розвитку, візуальне сприйняття — ймовірно, правильний шлях.
Уявіть, якщо з самого початку побудови моделей закласти цю біологічну візуальну інстинктивність у гени AI, створивши мультимодальну модель, яка одночасно розуміє і обробляє текст, зображення, відео та аудіо — вона отримає здатність до візуального розуміння. Андрю Дай і його команда прагнуть створити природжений “синестетик”, який навчатиме машину не лише “бачити” світ, а й “розуміти” його.
На думку Андрю Дая та його команди, глибоке усвідомлення реального “фізичного світу” — ключ до створення наступного покоління машинного інтелекту і досягнення “візуального універсального штучного інтелекту (Visual AGI)”.
Постмодульні VLM — не правильний шлях до візуального мислення
Раніше неодноразово команда намагалася це зробити. Насправді, Андрю Дай у команді Gemini вже був у провідних у мультимодальній галузі. Але традиційні мультимодальні моделі все ще базуються на VLM (візуально-мовних моделях), що працюють за двоступеневою логікою: спершу перетворюють візуальний ввід у мову, а потім виконують текстове мислення (іноді з використанням зовнішніх інструментів).
Однак таке “заднє” мислення має обмеження: по-перше, воно сприяє появі “галюцинацій” моделі, по-друге, багато візуальних завдань просто не можна точно описати словами.
Крім того, моделі NanoBanana для генерації зображень мають чудові здібності у мультимодальній генерації, але їхні можливості генерації і мислення — різні речі. Перед генерацією модель “думає” за допомогою мовних моделей, а не має вродженої здатності до мислення.
Щоб створити модель, яка справді здатна глибоко аналізувати простір, структури і складні взаємозв’язки у візуальному світі, потрібно радикально змінити технологічний підхід.
Як саме? Засновники Elorian AI, які мають багаторічний досвід у мультимодальній галузі, пропонують глибоку інтеграцію мультимодального навчання з новою архітектурою, спеціально розробленою для мультимодального мислення. Вони відмовилися від традиційного підходу, коли зображення вважається статичним входом, і навчили модель безпосередньо взаємодіяти з візуальними репрезентаціями (Visual representations), щоб самостійно аналізувати структури, взаємозв’язки і фізичні обмеження.
Ще один важливий аспект — дані. Вони визначають якість і успіх моделей.
Андрю Дай зазначає, що вони приділяють особливу увагу якості даних, їхній змішуваності, джерелам і різноманітності, і здійснюють інновації у зборі даних, у тому числі масштабно і глибоко використовуючи синтезовані дані для реконструкції ланцюжка візуального мислення.
Зусилля у цій сфері мають створити нову AI-систему, здатну перейти від простого “сприйняття” до високорівневого “мислення” у візуальній сфері.
Ця система може стати базовою моделлю для візуального мислення — універсальною, але з високою спеціалізацією у візуальній логіці.
Якщо вона стане універсальною базовою моделлю, її застосування буде широким.
Наприклад, у робототехніці вона може стати основою для систем, здатних автономно працювати у незнайомих середовищах.
Наприклад, у надзвичайних ситуаціях — щоб швидко і точно реагувати на небезпечні ситуації, наприклад, у небезпечних умовах. Без глибокої здатності до мислення робот не зможе швидко і правильно реагувати, натискаючи кнопки або керуючи важелями. А якщо він матиме потужну здатність до логічного мислення, він зможе подумати: “Перед тим, як діяти з цим панеллю, можливо, потрібно спершу натиснути цей важіль, щоб активувати захисний механізм.”
У сфері управління катастрофами, модель із візуальним мисленням може аналізувати супутникові знімки для моніторингу і запобігання лісовим пожежам; у технічній галузі — точно розуміти складні візуальні креслення і схеми систем. Це важливо, оскільки закони фізичного світу суттєво відрізняються від чистого коду: не можна просто написати кілька рядків коду і створити крило літака.
Зараз моделі Elorian AI і їхні можливості ще перебувають на рівні концепцій, але вони планують у 2026 році представити модель, яка досягне SOTA у візуальному мисленні, щоб перевірити свої здобутки.
Як зміниться фізичний світ, коли AI справді отримає “візуальне мислення”?
Щоб AI міг розуміти і впливати на реальний фізичний світ, технології вже пройшли кілька етапів розвитку.
Від традиційного CV (комп’ютерного зору) ідентифікації зображень, до генеративних моделей і мультимодальних систем, і до моделей світу — розуміння фізичного світу постійно поглиблюється.
А базові моделі візуального мислення, ймовірно, зроблять ще один крок уперед, оскільки здатність до візуального мислення дозволить AI глибше розуміти фізику світу і підвищити рівень машинного інтелекту.
Уявіть, якщо моделі з глибоким розумінням і точним управлінням почнуть застосовуватися у сферах робототехніки, промислового виробництва або медицини; у сфері AI-апаратури, особливо носимих пристроях, вони стануть більш розумними особистими асистентами.
Однак у фундаменті цих технологій — дані. Як і раніше, Андрю Дай підкреслює, що якість даних, їхня змішуваність, джерела і різноманітність визначають успіх моделей.
У галузі фізичного AI китайські компанії у моделях і даних вже набагато ближчі до світових лідерів, ніж текстові великі моделі. Якщо вони зможуть швидко і ефективно використовувати переваги багатогранних даних і застосувань, то зможуть швидше оновлюватися і досягти провідних позицій у сферах фізичного AI, промисловості, медицини і домашнього застосування, а також створити світові компанії рівня світового масштабу.