Cenário de difusão de IA… a vitória ou derrota não depende da ‘competição de GPU’, mas sim de uma infraestrutura de inferência de custo eficiente

robot
Geração de resumo em curso

À medida que as empresas introduzem inteligência artificial (IA) além da fase experimental, entrando na fase de difusão total, as chaves do sucesso do mercado também estão a mudar. Hoje, o núcleo da competição não é mais simplesmente acumular modelos maiores e mais processadores gráficos (GPU), mas sim quem consegue construir um “sistema de inferência de IA escalável” que opere de forma estável enquanto controla o orçamento.

Red Hat e Intel estão acompanhando essa tendência, acelerando a expansão de infraestruturas de inferência de IA baseadas em tecnologia de código aberto. Taneem Ibrahim, responsável pela engenharia de inferência de IA na Red Hat, e Bill Pearson, vice-presidente do departamento de centros de dados e IA da Intel, indicaram no “Red Hat Summit 2026” que os desafios reais na operação de serviços de IA em grande escala residem na relação custo-benefício e na otimização da combinação de infraestrutura.

De uma tendência de GPU única para uma estratégia paralela de CPU

Na fase inicial de difusão da IA generativa, após o surgimento do ChatGPT e de modelos de peso aberto, a prática principal era implantar modelos grandes em grandes clusters de GPU. No entanto, em ambientes empresariais reais, os custos operacionais e a controlabilidade tornaram-se tão importantes quanto o desempenho. Assim, a questão principal passou a ser como escalar eficientemente modelos nas plataformas Red Hat Enterprise Linux (RHEL) e OpenShift.

Ibrahim afirmou que a Red Hat está cada vez mais pensando em como operar um dos seus projetos de código aberto de maior contribuição, “vLLM”, em ambientes de grande escala. Ele destacou que o desafio central é reduzir o “custo por token” para aplicar IA em negócios reais, ao mesmo tempo que mantém a governança e possibilita implantações em larga escala.

Recentemente, a prioridade na infraestrutura também está mudando. Pearson explicou que, ao contrário da fase inicial centrada em GPU, com a difusão da “IA proxy”, o papel do processador central (CPU) voltou a ganhar destaque. Isso significa que nem todas as tarefas de IA precisam de GPU; dependendo do tipo de carga de trabalho, a combinação racional de CPU e GPU torna-se mais importante.

Red Hat e Intel ampliam suporte ao vLLM baseado em Xeon

Com base nessa avaliação, ambas as empresas integraram na versão “Red Hat AI 3.4” suporte completo ao vLLM em ambientes Intel Xeon. O foco não é recomendar uma configuração padrão para todos os clientes, mas sim projetar combinações de hardware e software de acordo com a natureza do negócio de cada empresa e os resultados esperados.

Pearson analisou que muitas empresas anteriormente adotaram uma abordagem de “ter uma martelada na mão e ver tudo como prego”, centrada em GPU. Mas ele explicou que, ao reavaliar os recursos de CPU já implantados em larga escala nos data centers, e ao adotar uma estratégia de adição sob demanda de GPU, é possível alcançar desempenho superior e custos menores ao mesmo tempo.

Especialmente, tarefas proxy de IA como chamadas de ferramentas e orquestração de dados podem ser processadas sem GPU. A Intel acredita que permitir que a CPU assuma essas tarefas de inferência pode liberar a GPU para tarefas mais pesadas, aumentando a eficiência de todo o sistema.

Competição em infraestrutura de IA: “eficiência operacional” torna-se mais importante que “desempenho”

Essa discussão indica que o mercado de IA já ultrapassou a simples competição de desempenho de modelos, passando a uma competição de economicidade na fase operacional. Para as empresas, mais do que adquirir o máximo de hardware de ponta, a questão mais realista é como utilizar melhor os ativos existentes do centro de dados, ao mesmo tempo em que se consegue “custo por token baixo” e serviços estáveis.

No final, o vencedor na próxima geração de competição de IA provavelmente não será a empresa com o hardware mais potente, mas aquela que, com uma combinação adequada de CPU-GPU e software de código aberto, maximizará a “relação custo-benefício”. A colaboração entre Red Hat e Intel é vista como uma iniciativa alinhada a essa tendência de mercado.

TP AI Aviso Este artigo é um resumo baseado no modelo de linguagem TokenPost.ai. Pode haver omissões ou imprecisões nos conteúdos principais.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar