Quando as faturas de IA ficam descontroladas, o roteador de modelos se torna o novo favorito das empresas para redução de custos.

robot
Geração do resumo em andamento

À medida que os custos de uso de IA empresarial continuam subindo, uma tecnologia chamada "roteador de modelos" está rapidamente passando de ferramenta de nicho para mainstream. Esses sistemas ajustam automaticamente o modelo de IA mais adequado com base na complexidade da tarefa, reduzindo significativamente os gastos sem sacrificar muito a qualidade, atraindo a atenção desde startups até grandes empresas.

A lógica central do roteador de modelos é: nem todas as tarefas exigem o modelo de ponta mais caro. Tarefas básicas como resumir e-mails ou recuperar documentos podem ser realizadas por modelos de código aberto ou modelos proprietários antigos, a uma fração do custo dos modelos topo de linha. Empresas como Snowflake e Palo Alto Networks confirmaram ao The Information que conseguiram economias de custo consideráveis ao substituir modelos mais baratos para tarefas específicas.

Essa tendência está gerando retornos comerciais reais. A construtora McCarthy Building afirmou que, por meio da ferramenta de roteamento Evolve da Palantir, seu uso de tokens de IA no trimestre caiu 60% em relação ao ano anterior. A própria Palantir revelou que, em um caso específico, a ferramenta reduziu os custos computacionais em 97% ao mudar uma tarefa do GPT-5.1 da OpenAI para o modelo menor GPT-5.4 Nano.

Da seleção manual ao roteamento automático: um ponto de inflexão no setor

O conceito de roteador de modelos não é novo, mas realmente ganhou destaque após o lançamento do GPT-5 pela OpenAI. Esse modelo alterna automaticamente entre diferentes modelos dentro do ChatGPT com base na complexidade do prompt do usuário, incorporando a lógica de roteamento no produto. Desde então, roteadores capazes de coordenar modelos de múltiplos fornecedores começaram a se popularizar rapidamente.

Atualmente, os roteadores no mercado têm formas variadas: desde produtos independentes, módulos de funcionalidade integrados em provedores de nuvem, até soluções personalizadas desenvolvidas pelos departamentos de TI das empresas. O objetivo comum dessas ferramentas é substituir a seleção manual de modelos pelo usuário, reduzindo custos e mantendo a qualidade da saída.

O Unity AI Gateway da Databricks é um exemplo. O CEO Ali Ghodsi afirmou que a ferramenta é "muito popular" porque muitas empresas "estão queimando seus orçamentos rápido demais". A Databricks usou a ferramenta internamente por um tempo antes de lançá-la para seus clientes.

De startups a gigantes de tecnologia: todos entram no jogo

O mercado de roteadores está atraindo participantes de diferentes portes. Segundo reportagem anterior do The Information, em abril deste ano, a startup OpenRouter, especializada em tecnologia de roteamento, levantou US$ 120 milhões em uma nova rodada de financiamento, evidenciando o entusiasmo do mercado de capitais por essa direção.

O "roteador automático" da OpenRouter decide qual modelo chamar com base nas preferências de custo e qualidade do usuário (definidas em uma escala de 0 a 10). Os dados mostram que o roteador escolhe o Gemini 2.5 Flash Lite, relativamente barato do Google, cerca de um terço das vezes, enquanto chama o GPT-5.5, mais poderoso da OpenAI, em apenas cerca de 10% das vezes. O roteador automático da OpenRouter é alimentado pela startup Not Diamond, especializada em sistemas de roteamento para agentes de programação de IA.

O laboratório japonês de IA Sakana AI lançou recentemente um sistema colaborativo multi-modelo baseado em roteador. Em testes, o sistema atribuiu principalmente problemas de matemática ao GPT-5.5 da OpenAI e problemas científicos ao Gemini do Google, com base na avaliação de que esses dois modelos são superiores em suas respectivas áreas. A Sakana AI afirma que o sistema geral tem desempenho "comparável" ao modelo Fable 5 da Anthropic e ao modelo Mythos Preview em benchmarks de programação, engenharia, tarefas científicas e raciocínio.

O aplicativo de programação de IA Cognition também lançou um novo roteador esta semana, usando seus benchmarks internos para identificar as vantagens relativas de diferentes agentes e introduzindo um agente "sidekick" para tarefas mais simples. A Cognition afirma que o roteador atingiu o mesmo nível de pontuação do Fable 5 em um benchmark de programação, com um custo 35% menor.

Roteamento DIY: soluções de baixo custo também funcionam

Nem todas as empresas precisam comprar produtos de roteamento especializados. Desenvolvedores podem construir seus próprios roteadores usando agentes de programação de IA como Claude Code, ou até mesmo pedir a um modelo de IA que decida qual modelo é mais adequado para uma consulta específica.

Hunter Bown, da Arcee AI, responsável pelo trabalho com agentes de IA, disse que costuma usar o DeepSeek V4 Flash para seleção de modelos devido ao seu baixo custo. Sua abordagem é fornecer ao DeepSeek uma lista de modelos e deixá-lo decidir qual modelo é mais adequado para o prompt atual.

No entanto, essas soluções "rápidas" têm suas limitações. Shriyash Upadhyay, fundador da fornecedora de roteadores Martian, observou que roteadores mais complexos às vezes apresentam resultados brilhantes em benchmarks, mas o desempenho real pode não corresponder. Ele também mencionou que, mesmo para roteadores mais sofisticados, prever o melhor modelo com base apenas no primeiro prompt do usuário é bastante desafiador.

Upadhyay afirmou que a rápida iteração dos modelos e as mudanças contínuas nas capacidades tornam as decisões de roteamento cada vez mais complexas. "As empresas não têm dados infinitos sobre todas as diferentes tarefas, então você precisa realmente mergulhar fundo nos modelos para descobrir no que eles são bons." Para isso, a Martian, ao tomar decisões de roteamento, não considera apenas os resultados de saída dos modelos, mas também os processos computacionais internos que os compõem.

Pressão de custos contínua: demanda por roteadores deve aumentar

A ansiedade das empresas com os custos de IA não é um fenômeno de curto prazo. À medida que o uso de modelos de IA avançados pelos funcionários continua aumentando (fenômeno conhecido como "tokenmaxxing"), a administração está intensificando o escrutínio sobre os gastos com IA. Esse contexto fornece um motor contínuo de demanda para roteadores de modelos.

Além da função de roteamento, a ferramenta Evolve da Palantir também ajusta automaticamente o conteúdo do prompt com base no modelo selecionado e evita que solicitações sejam repetidamente enviadas ao modelo — uma causa comum de cobranças excessivas. O caso da McCarthy Building mostra que, ao otimizar a estrutura dos prompts, as empresas podem consumir menos tokens ao usar modelos de ponta, obtendo os mesmos resultados.

Para os investidores, o aquecimento do mercado de roteadores de modelos significa: por um lado, startups focadas em tecnologia de roteamento, como a OpenRouter, estão ganhando favor do capital; por outro, empresas como Databricks e Palantir, que integram funções de roteamento em suas plataformas de IA empresarial, estão fortalecendo sua competitividade de produto. À medida que os gastos com infraestrutura de IA continuam se expandindo, a camada de ferramentas que ajuda as empresas a controlar esses gastos está se tornando um mercado emergente inegável.

Aviso de risco e isenção de responsabilidade

        Mercado tem riscos, investir requer cautela. Este artigo não constitui aconselhamento pessoal de investimento e não leva em consideração os objetivos de investimento, situação financeira ou necessidades específicas de cada usuário. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados às suas circunstâncias específicas. Investir com base nisso é por conta e risco próprios.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado