Quando as faturas de IA ficam fora de controlo, os roteadores de modelo tornam-se a nova tendência para as empresas reduzirem custos.

robot
Geração de resumo em curso

À medida que os custos de uso de IA empresarial continuam a subir, uma tecnologia chamada "roteador de modelos" está rapidamente a passar de uma ferramenta periférica para algo mainstream. Estes sistemas são capazes de alocar automaticamente o modelo de IA mais adequado com base na complexidade da tarefa, reduzindo significativamente as despesas sem sacrificar substancialmente a qualidade, atraindo a atenção desde startups a grandes empresas.

A lógica central dos roteadores de modelos é: nem todas as tarefas precisam do modelo de ponta mais caro. Tarefas básicas como resumir e-mails ou recuperar documentos podem ser tratadas por modelos open source ou versões antigas proprietárias, a uma fração do custo dos modelos topo de gama. Empresas como Snowflake e Palo Alto Networks já confirmaram ao The Information que, ao substituir modelos mais baratos para tarefas específicas, conseguiram economias de custos consideráveis.

Esta tendência está a gerar retornos comerciais reais. A empresa de construção McCarthy Building afirmou que, através da ferramenta de roteamento Evolve da Palantir, a sua utilização de tokens de IA no trimestre atual diminuiu 60% em comparação com o período homólogo do ano anterior. A própria Palantir revelou que, num caso específico, esta ferramenta comprimiu os custos de computação em 97% ao mudar tarefas do GPT-5.1 da OpenAI para o modelo mais pequeno GPT-5.4 Nano.

Da seleção manual de modelos ao roteamento automático: um ponto de viragem na indústria

O conceito de roteador de modelos não é novo, mas tornou-se verdadeiramente mainstream após a OpenAI lançar o GPT-5. Este modelo, dentro do ChatGPT, alterna automaticamente entre diferentes modelos com base na complexidade do prompt do utilizador, integrando a lógica de roteamento no produto. Desde então, os roteadores capazes de agendar modelos entre vários fornecedores começaram a proliferar rapidamente.

Atualmente, os roteadores no mercado assumem várias formas: produtos independentes, módulos de funcionalidade integrados em serviços de cloud computing e soluções personalizadas construídas pelos departamentos de TI das empresas. O objetivo comum destas ferramentas é substituir a operação manual de seleção de modelos pelo utilizador, reduzindo custos enquanto mantêm a qualidade do output.

O Unity AI Gateway da Databricks é um exemplo. O CEO da empresa, Ali Ghodsi, afirmou que esta ferramenta é "muito popular", porque muitas empresas "estão a esgotar os orçamentos demasiado rápido". A Databricks já utilizava internamente o produto durante algum tempo antes de o lançar para os clientes.

De startups a gigantes tecnológicos, todos entram no jogo

O setor dos roteadores está a atrair participantes de diferentes dimensões. De acordo com uma reportagem anterior do The Information, em abril deste ano, a startup OpenRouter, que oferece tecnologia de roteamento, concluiu uma nova ronda de financiamento de 120 milhões de dólares, refletindo o entusiasmo do mercado de capitais por esta direção.

O "roteador automático" da OpenRouter decide qual o modelo a chamar com base nas preferências do utilizador entre custo e qualidade (definidas pelo próprio numa escala de 0 a 10). Os dados mostram que cerca de um terço do tempo o roteador escolhe o Gemini 2.5 Flash Lite, relativamente barato, da Google, enquanto a chamada ao GPT-5.5, mais poderoso da OpenAI, representa apenas cerca de 10%. O roteador automático da OpenRouter é suportado pela startup Not Diamond, especializada no desenvolvimento de sistemas de roteamento para agentes de programação de IA.

O laboratório japonês de IA Sakana AI lançou recentemente um sistema multi-modelo baseado em roteador. Nos testes, este sistema atribuiu maioritariamente problemas de matemática ao GPT-5.5 da OpenAI e problemas científicos ao Gemini da Google, alegando que o sistema considerou estes dois modelos superiores aos outros nos respetivos domínios. A Sakana AI afirmou que o desempenho geral do sistema "está a par" dos modelos Fable 5 e Mythos Preview da Anthropic em testes de referência como programação, engenharia, tarefas científicas e raciocínio.

A aplicação de programação de IA Cognition também lançou esta semana um novo roteador, que utiliza as suas referências internas para identificar as vantagens relativas de diferentes agentes e introduz um agente "sidekick" para lidar com tarefas mais simples. A Cognition afirmou que este roteador atingiu o nível de pontuação do Fable 5 num determinado teste de programação, mas com um custo 35% inferior.

DIY de roteamento: soluções de baixo custo também funcionam

Nem todas as empresas precisam de comprar produtos de roteamento especializados. Os programadores podem construir os seus próprios roteadores usando agentes de programação de IA, como o Claude Code, ou até mesmo deixar um modelo de IA decidir qual o modelo mais adequado para processar uma consulta específica.

Hunter Bown, responsável pelo trabalho de agentes de IA na Arcee AI, afirmou que costuma usar o DeepSeek V4 Flash para a seleção de modelos, devido ao seu baixo custo. A sua abordagem é fornecer ao DeepSeek uma lista de modelos e deixá-lo decidir qual o mais adequado para processar o prompt atual.

No entanto, estas soluções "rápidas" também têm limitações. Shriyash Upadhyay, fundador do fornecedor de roteadores Martian, apontou que roteadores mais complexos por vezes mostram resultados impressionantes em testes de referência, mas o desempenho real pode não corresponder. Acrescentou que, mesmo para roteadores mais sofisticados, é bastante difícil prever o melhor modelo apenas com base no primeiro prompt do utilizador.

Upadhyay afirmou que o ritmo acelerado de iteração dos modelos e as mudanças contínuas nas suas capacidades tornam as decisões de roteamento cada vez mais complexas. "As empresas não têm dados infinitos sobre todas as diferentes tarefas, por isso é preciso realmente mergulhar nos modelos para perceber no que são bons." Para isso, a Martian, ao tomar decisões de roteamento, não se baseia apenas nos outputs dos modelos, mas também nos processos computacionais internos que constituem esses modelos.

Pressão de custos contínua, procura por roteadores deverá aumentar

A ansiedade das empresas em relação aos custos de IA não é um fenómeno de curto prazo. À medida que a utilização de modelos de IA avançados pelos funcionários (o chamado fenómeno "tokenmaxxing") continua a aumentar, o escrutínio da gestão sobre as despesas de IA também se intensifica. Este contexto fornece um impulso contínuo de procura para os roteadores de modelos.

Para além das funcionalidades de roteamento, a ferramenta Evolve da Palantir também ajusta automaticamente o conteúdo do prompt com base no modelo selecionado e evita que os pedidos sejam enviados repetidamente para o modelo — uma das causas comuns de cobranças excessivas. O caso da McCarthy Building mostra que, ao otimizar a estrutura dos prompts, as empresas podem consumir menos tokens ao usar modelos de ponta, obtendo ao mesmo tempo os mesmos outputs.

Para os investidores, o aquecimento do setor dos roteadores de modelos significa que, por um lado, startups focadas em tecnologia de roteamento, como a OpenRouter, estão a ganhar a atenção do capital; por outro lado, empresas como a Databricks e a Palantir, que integram funcionalidades de roteamento nas suas plataformas de IA empresarial, estão a fortalecer a competitividade dos seus produtos. À medida que as despesas com infraestrutura de IA continuam a expandir-se, a camada de ferramentas que ajuda as empresas a controlar essas despesas está a tornar-se um mercado emergente a não ignorar.

Aviso de risco e declaração de isenção de responsabilidade

        O mercado tem riscos, o investimento requer cautela. Este artigo não constitui uma recomendação de investimento pessoal e não considera os objetivos de investimento, situação financeira ou necessidades específicas de utilizadores individuais. Os utilizadores devem considerar se qualquer opinião, ponto de vista ou conclusão deste artigo se adequa à sua situação específica. Qualquer investimento com base neste artigo é da responsabilidade do próprio.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado