A capacidade dos grandes modelos de IA já ultrapassou em alguns aspetos a de pessoas comuns, como na programação e matemática. Segundo notícias, a Anthropic quase atingiu 100% de programação por IA internamente, e o Gemini Deep Think do Google resolveu 5 das 6 questões no IMO 2025, atingindo nível de medalha de ouro.

Porém, na inferência visual, mesmo o Gemini 3 Pro, que está à frente em nível, apenas alcançou o nível de uma criança de 3 anos na Benchmark BabyVision, que avalia capacidades visuais de raciocínio.

Por que os grandes modelos são fortes em programação e matemática, mas fracos em raciocínio visual? Isso ocorre porque seu “modo de pensar” apresenta limitações. Os modelos de linguagem visual (VLM) precisam primeiro transformar entradas visuais em linguagem, para depois realizar raciocínio baseado em texto, mas muitas tarefas visuais não podem ser descritas com precisão por palavras, o que prejudica sua capacidade de racínio visual.

Andrew Dai, que trabalhou 14 anos na Google DeepMind, juntou-se ao especialista em IA da Apple, Yinfei Yang, e fundaram a Elorian AI. O objetivo deles é elevar a capacidade de raciocínio visual do modelo de “nível infantil” para “nível adulto”, e dotar o modelo de verdadeira capacidade de pensar nativamente no “espaço visual”, para impactar a AGI no mundo físico.

A Elorian AI obteve US$ 55 milhões em financiamento inicial, liderado por Striker Venture Partners, Menlo Ventures e Altimeter, com participação de 49 Palms e de top cientistas de IA, incluindo Jeff Dean.

Pioneiros em modelos multimodais, querem dotar modelos visuais de raciocínio

Como um chinês, Andrew Dai tem graduação em Ciência da Computação por Cambridge e doutorado em Aprendizado de Máquina por Edimburgo. Durante o doutorado, fez estágio na Google, ingressou na empresa em 2012 e lá permaneceu por 14 anos, até fundar a própria startup.

Fonte da imagem: LinkedIn de Andrew Dai

Pouco após ingressar na Google, co-escreveu com Quoc V. Le o artigo “Semi-supervised Sequence Learning”, que estabeleceu as bases para o nascimento do GPT. Outra publicação fundamental dele foi “Glam: Efficient scaling of language models with mixture-of-experts”, que abriu caminho para a arquitetura MoE atualmente dominante.

Fonte da imagem: Google

Na Google, participou de quase todos os treinamentos de grandes modelos, de Plam a Gemini 1.5 e Gemini 2.5. Sob orientação de Jeff Dean, em 2023 passou a liderar a equipe de dados do Gemini (incluindo dados sintéticos), que posteriormente cresceu para centenas de pessoas.

Fonte da imagem: LinkedIn de Yinfei Yang

Ao lado de Andrew Dai, está Yinfei Yang, que trabalhou quatro anos na Google Research, focado em representação multimodal, e depois entrou na Apple, liderando o desenvolvimento de modelos multimodais.

Fonte da imagem: arXiv

Seu trabalho de destaque, “Scaling up visual and vision-language representation learning with noisy text supervision”, impulsionou o avanço na aprendizagem multimodal.

Os cofundadores da Elorian AI também incluem Seth Neel, ex-assistente de ensino na Harvard e especialista em dados e IA.

Por que discutir as publicações pioneiras desses cofundadores? Porque eles não buscam apenas otimizações de engenharia, mas uma mudança de paradigma na arquitetura fundamental, elevando a IA de compreensão inteligente baseada em texto para compreensão inteligente baseada em visual.

Hoje, embora os modelos de IA tenham bom desempenho em tarefas baseadas em texto, até os mais avançados modelos multimodais ainda tropeçam na tarefa fundamental de (Visual grounding).

Por exemplo, como encaixar uma peça perfeitamente em um dispositivo mecânico, para que funcione com maior precisão e eficiência? Tarefas espaciais e físicas assim são simples para estudantes do ensino fundamental, mas difíceis para os atuais grandes modelos multimodais.

Ainda é preciso buscar pistas na biologia. No cérebro humano, a visão é a base de muitos processos cognitivos. A capacidade de raciocínio espacial e visual dos humanos é muito mais antiga do que o raciocínio lógico por linguagem.

Por exemplo, ensinar alguém a passar por um labirinto usando palavras pode confundi-lo, mas um esboço basta para entender na hora.

Ou, mesmo uma ave, que não usa linguagem, consegue reconhecer e raciocinar sobre características geográficas, realizando migração remota global. Isso é um forte sinal de que, para avançar na capacidade de raciocínio das máquinas, a evolução do visual é provavelmente o caminho mais correto.

Imagine então, se desde a construção do modelo, tentássemos incorporar esse instinto visual biológico ao AI, criando um modelo multimodal nativo capaz de “entender e processar simultaneamente texto, imagens, vídeos e áudio”, dotando-o de compreensão visual. Andrew Dai e sua equipe querem criar um “sinestésico” nato, que ensine a máquina não só a “ver” o mundo, mas a “compreendê-lo”.

Para Andrew Dai e sua equipe, compreender profundamente o “mundo físico” é a chave para a próxima revolução na inteligência das máquinas, levando finalmente à “IA visual geral (Visual AGI)”.

VLM com raciocínio posterior não é o caminho certo para a inferência visual

Já houve equipes tentando fazer isso. Andrew Dai, na equipe Gemini, já liderava uma das mais avançadas no campo multimodal globalmente. Mas os modelos multimodais tradicionais ainda são baseados em VLM (modelos de linguagem visual), que operam numa lógica de “dois passos”: primeiro transformar a entrada visual em linguagem, depois fazer raciocínio baseado em texto (às vezes usando ferramentas externas).

Porém, o raciocínio posterior tem limitações. Pode gerar alucinações do modelo e muitas tarefas visuais não podem ser descritas com precisão por palavras.

Além disso, modelos como NanoBanana, que geram imagens, têm grande capacidade de geração, mas geração não equivale a raciocínio. Antes de gerar, eles dependem de modelos de linguagem, não de raciocínio nativo.

Para desenvolver modelos que realmente compreendam a complexidade espacial, estrutural e relacional do mundo visual, é preciso uma inovação disruptiva na tecnologia de base.

Como fazer isso? Os fundadores da Elorian AI, com anos de experiência em multimodal, propõem uma fusão profunda entre treinamento multimodal e uma arquitetura totalmente nova, projetada especificamente para raciocínio multimodal. Abandonam a abordagem tradicional de tratar imagens como entradas estáticas, treinando o modelo para interagir e manipular representações visuais (Visual representations), para analisar suas estruturas, relações e restrições físicas de forma autônoma.

Outro elemento fundamental é o dado. A qualidade, a mistura, a origem e a diversidade dos dados são decisivos para o desempenho do modelo.

Andrew Dai afirma que eles valorizam muito a qualidade dos dados, a proporção de diferentes fontes e a diversidade, além de inovar na camada de dados, reconstruindo a cadeia de raciocínio no espaço visual, usando em larga escala e de forma profunda dados sintéticos.

Esses esforços, combinados, devem gerar um sistema de IA capaz de ir além da “percepção” visual simples, avançando para “raciocínio” visual de alto nível.

Esse sistema de IA pode ser um modelo de raciocínio visual fundamental: uma base altamente geral, com desempenho excepcional em capacidades específicas, como raciocínio visual.

Como um modelo base universal, suas aplicações devem ser amplas.

Primeiro, na robótica, pode servir como núcleo neural para sistemas autônomos em ambientes desconhecidos.

Por exemplo, enviar um robô para lidar com uma falha de segurança emergencial em um ambiente perigoso. Isso exige decisões rápidas e precisas. Sem um modelo de raciocínio profundo, não se pode confiar que o robô vá operar com segurança. Mas, com forte raciocínio, ele pode pensar: “Antes de operar esse painel, talvez eu deva puxar essa alavanca para ativar o mecanismo de segurança.”

Na gestão de desastres, modelos com raciocínio visual podem analisar imagens de satélite para monitorar e prevenir incêndios florestais; na engenharia, interpretar desenhos complexos e esquemas de sistemas. Essas capacidades são essenciais porque as leis de funcionamento do mundo físico diferem fundamentalmente do mundo do código. Não basta escrever algumas linhas de código para projetar uma asa de avião.

Porém, atualmente, os modelos e capacidades da Elorian AI ainda estão na fase conceitual. Planejam lançar em 2026 um modelo de SOTA em raciocínio visual, para testar se suas promessas se confirmam.

Quando a IA realmente adquirir “raciocínio visual”, como ela mudará o mundo físico?

Para que a IA compreenda e influencie o mundo físico real, a tecnologia evoluiu várias vezes.

Desde o reconhecimento de imagens na era tradicional de CV, até modelos generativos de imagens/ multimodais, e agora os modelos de mundo, a compreensão do mundo físico vem se aprofundando.

E o modelo de raciocínio visual provavelmente avançará ainda mais, pois, ao realizar raciocínio visual, a IA poderá entender o mundo físico de forma mais profunda, atingindo um nível superior de inteligência artificial.

Imagine um modelo com compreensão profunda e operação precisa, alimentando setores como robótica e hardware de IA. Por exemplo, robôs em produção industrial confiável ou na área médica; hardware de IA, especialmente dispositivos vestíveis, se tornando assistentes pessoais mais inteligentes.

Porém, na base dessas tecnologias, ainda está o dado. Andrew Dai reforça que a qualidade, a mistura, a origem e a diversidade dos dados determinam o desempenho do modelo.

No campo de IA física, empresas chinesas, tanto na parte de modelos quanto de dados, estão mais próximas do topo mundial do que os modelos de texto. Se conseguirem usar dados e ampliar os cenários de aplicação, acelerando a evolução, terão mais chances de liderar em inteligência embarcada, hardware de IA, industrial, saúde e domicílio, podendo até criar empresas de nível mundial.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
1.23M Popularidade
#
WCTCTradingChallengeShare8MUSDT
799.48K Popularidade
#
BitcoinBouncesBack
215.81K Popularidade
#
IsraelStrikesIranBTCPlunges
30.66K Popularidade
#
EthereumMemeSeasonReturns
2M Popularidade

Fixar

Usar "raciocínio visual" para explorar o mundo físico AGI, ElorianAI levanta 55 milhões de dólares em financiamento

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Fixar