DeepInfra concluiu uma rodada de financiamento Série B de 107 milhões de dólares, liderada por 500 Global e pelo ex-engenheiro do Google Cloud George Harrick, com participação da Nvidia e outros. A empresa foca em inferência de IA, com hardware próprio em 8 centros de dados nos EUA, controlando toda a cadeia desde GPU até API, para alcançar inferência eficiente, alegando uma economia de custos de até 20 vezes. A proporção de tokens de proxy autônomos ultrapassa 30%, e a IA de proxy impulsiona a automação na inferência de negócios. A plataforma suporta mais de 190 modelos de código aberto, oferecendo zero retenção de dados. O objetivo é transformar a inferência na etapa central do processo, construindo uma infraestrutura de inferência distribuída globalmente.

TechubNews

2026-05-05 03:58:12

Geração de resumo em curso

Focada na inferência de inteligência artificial, a empresa de computação em nuvem DeepInfra obteve 107 milhões de dólares na rodada Série B, impulsionando a expansão global de dispositivos. Em won coreano, o valor equivale a aproximadamente 158,192,50 milhões de won. Na fase de transição da IA generativa além do estágio experimental para uma “IA agente”, a DeepInfra planeja superar as limitações do atual computação em nuvem geral.

Este investimento foi liderado por 500 Global e pelo ex-engenheiro da Google Cloud, George Harrick. Além disso, participaram Nvidia, Samsung Next (departamento de investimentos da Samsung Electronics), Supermicro, A.Capital Ventures, Crescent Cove, Peliciis, Peak6, Upper90, entre outros. Destaca-se que os principais investidores também estão atentos ao potencial de crescimento do mercado de infraestrutura de IA.

A DeepInfra é uma empresa focada na fase de “inferência” de cargas de trabalho de IA. Inferência refere-se à etapa em que o modelo de IA treinado processa solicitações de usuários em ambientes de serviço reais. A empresa acredita que as plataformas de nuvem existentes não foram projetadas considerando essa necessidade. Eles explicam que, especialmente para IA agente, uma única tarefa pode exigir dezenas a centenas de chamadas ao modelo, o que pode causar atrasos e custos altamente instáveis.

Para resolver esse problema, a DeepInfra afirma estar desenvolvendo uma “fábrica de tokens” que trata a inferência como uma etapa central, e não um serviço adicional. A empresa foi fundada por uma equipe de engenheiros que criou o aplicativo de mensagens instantâneas “imo”, que expandiu para mais de 200 milhões de usuários globalmente. Sua estratégia é transferir a experiência operacional de sistemas distribuídos em larga escala para infraestrutura de inferência de IA.

Ao contrário dos operadores atuais, que dependem de alugar capacidade ociosa de servidores externos (“Spot”), a DeepInfra opera hardware próprio em oito centros de dados nos EUA. Eles descrevem que, ao controlar toda a pilha, desde GPU até API, podem melhorar a eficiência. A empresa afirma que, usando a plataforma de inferência distribuída da Nvidia, “Dynamo”, além de GPUs Blackwell e Vera Rubin, podem oferecer até 20 vezes mais eficiência de custo na inferência.

Particularmente, a DeepInfra acredita que a IA agente consome muito mais recursos do que os chatbots generativos atuais. Atualmente, mais de 30% de todo o tráfego de tokens gerado na plataforma vem de agentes autônomos, o que confirma essa tendência. Isso indica que a demanda por inferência de IA está ultrapassando respostas simples de chatbots, avançando rapidamente para automação de processos empresariais.

Atualmente, a plataforma da DeepInfra suporta mais de 190 modelos de IA de código aberto, incluindo a série Nvidia Nemotron. Além disso, para empresas preocupadas com o envio de informações sensíveis para a nuvem externa, é oferecida uma política de “nenhum dado retido”. Isso é interpretado como uma estratégia para criar uma vantagem competitiva no mercado de IA empresarial, considerando segurança, custos e velocidade.

O cofundador e CEO Nikolai Borisov afirmou que, desde a fundação há quatro anos, acreditava que a inferência de IA se tornaria o núcleo das cargas de trabalho de IA empresariais, e hoje essa previsão se concretizou. Ele analisa que modelos de código aberto estão rapidamente alcançando modelos fechados, promovendo inovação a custos menores, enquanto sistemas baseados em agentes criam uma demanda contínua e em grande escala. Ele reforça que a inferência de IA deixou de ser uma camada superficial de processamento, tornando-se o “gargalo” que definirá a maior parte das cargas de trabalho de IA no futuro.

Tony Wang, da 500 Global, também comentou que, com a crescente demanda por inferência de IA, desenvolvedores e engenheiros precisam de infraestrutura mais rápida, flexível e estável. Ele afirmou que a equipe da DeepInfra já demonstrou capacidade de construir e operar sistemas distribuídos globais, e acredita que a infraestrutura de inferência de IA orientada a objetivos se tornará uma base central para suportar a próxima fase da indústria de IA.

Este financiamento não é apenas uma captação de recursos, mas também evidencia que o foco da competição em infraestrutura de IA está mudando do treinamento para a inferência. Especialmente com a disseminação formalizada de IA agente, a capacidade de processar inferências de IA de forma rápida e de baixo custo está se tornando uma nova estratégia vencedora no mercado de computação em nuvem.

Notas do TP AI: Este texto foi resumido com base no modelo de linguagem TokenPost.ai. Pode omitir conteúdos principais do original ou apresentar informações imprecisas.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
668.84K Popularidade
#
USSeeksStrategicBitcoinReserve
58.84M Popularidade
#
IsraelStrikesIranBTCPlunges
42.83K Popularidade
#
BitcoinETFOptionLimitQuadruples
1.07M Popularidade
#
#FedHoldsRateButDividesDeepen
51.14K Popularidade

Fixar

DeepInfra，Série B de financiamento de 107 milhões de dólares…… Expansão global da infraestrutura de inferência de IA

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar