Gartner: Até 2030, os custos de raciocínio em modelos de linguagem de grande escala irão diminuir mais de 90%

MaticHoleFiller · 2026-04-01T01:48:47+00:00

Segundo a Gartner, até 2030, os custos de inferência em um grande modelo de linguagem (LLM) com trilhões de parâmetros serão reduzidos em mais de 90% em relação a 2025, o que permitirá aos fornecedores de inteligência artificial generativa (GenAI) economizar uma quantia significativa de dinheiro.Tokens de IA são unidades de dados processadas pelos modelos de inteligência artificial generativa. Nesta análise, um token equivale a aproximadamente 3,5 bytes de dados, ou cerca de 4 caracteres.Will Sommer, analista sênior da Gartner, afirmou: “A redução desses custos será impulsionada por melhorias na eficiência de semicondutores e infraestrutura, inovações no design de modelos, maior utilização de chips, uso mais frequente de chips de inferência dedicados a aplicações específicas e a aplicação de dispositivos de borda em cenários específicos.”Devido a essas tendências, a Gartner prevê que, até 2030, grandes

MaticHoleFiller

2026-04-01 01:48:47

Segundo a Gartner, até 2030, o custo de inferência num grande modelo de linguagem (LLM) com mil biliões de parâmetros será mais baixo em mais de 90% do que em 2025, o que fará com que os fornecedores de inteligência artificial generativa (GenAI) poupem custos substanciais.

Um token de IA é a unidade de dados que os modelos de IA generativa processam. Nesta análise, um token equivale a 3,5 bytes de dados, ou seja, cerca de 4 caracteres.

O analista sénior da Gartner, Will Sommer, afirmou: “A redução destes custos beneficiará de vários factores, incluindo melhorias na eficiência dos semicondutores e da infra-estrutura, inovações no desenho dos modelos, aumento da utilização dos chips, maior utilização de chips de inferência dedicados para casos de uso específicos e adopção de dispositivos de ponta em cenários específicos.”

Devido ao impacto destas tendências, a Gartner prevê que, até 2030, a relação custo-benefício dos grandes modelos de linguagem será até 100 vezes superior à dos modelos de início do mesmo porte desenvolvidos em 2022.

Os resultados do modelo de previsão são divididos em dois cenários de semicondutores:

Cenário de ponta: os dados simulados de inferência são baseados em chips de última geração.

Cenário híbrido tradicional: a inferência é baseada numa combinação típica de semicondutores existentes, que é avaliada com base em dados de previsão da consultora Gartner.

No cenário de previsão “híbrido”, o custo calculado é claramente mais elevado do que no cenário “de ponta”.

Cenários de previsão do custo de inferência de inteligência artificial geral

A redução de custos não irá popularizar a tecnologia inteligente de ponta

No entanto, a descida do preço dos tokens nos serviços de inteligência artificial generativa não será totalmente repercutida nos clientes empresariais. Além disso, o número de tokens necessários para aplicações de inteligência de ponta será muito superior ao das aplicações actuais dominantes. Por exemplo, o número de tokens necessários para que os modelos de agentes concluam cada tarefa é de 5 a 30 vezes o de um chatbot padrão de IA generativa, e permite executar ainda mais tarefas do que as realizadas por humanos com IA generativa.

Embora o menor custo unitário por token torne a IA generativa mais avançada mais capaz, estes progressos levarão a um aumento significativo da procura de tokens. Como a taxa de consumo de tokens é superior à velocidade de queda do custo dos tokens, prevê-se que o custo global de inferência aumente.

Sommer afirmou: “Os directores de produto não devem confundir a desvalorização de tokens comercializados com a democratização da inferência de ponta. À medida que os custos da tecnologia de inteligência comercializada se aproximarem de zero, os recursos de computação e os sistemas necessários para suportar inferência avançada continuarão a ser muito escassos. Aqueles directores de produto que hoje usam tokens baratos para mascarar problemas de ineficiência arquitectónica terão dificuldades amanhã em expandir a autonomia em escala.”

As plataformas capazes de coordenar e tratar cargas de trabalho sob vários modelos irão gerar valor. As tarefas regulares e de alta frequência devem ser atribuídas a modelos linguísticos pequenos e mais eficientes, especializados em domínios específicos, porque estes modelos conseguem executar tarefas de fluxos de trabalho específicos com melhor desempenho, a custos que são apenas uma pequena fracção das soluções genéricas. A inferência dispendiosa em níveis de ponta deve ser rigidamente limitada e reservada para tarefas de alta rentabilidade e raciocínio complexo.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

2 gostos