Gartner: Até 2030, os custos de raciocínio em modelos de linguagem de grande escala irão diminuir mais de 90%

Segundo a Gartner, até 2030, o custo de inferência num grande modelo de linguagem (LLM) com mil biliões de parâmetros será mais baixo em mais de 90% do que em 2025, o que fará com que os fornecedores de inteligência artificial generativa (GenAI) poupem custos substanciais.

Um token de IA é a unidade de dados que os modelos de IA generativa processam. Nesta análise, um token equivale a 3,5 bytes de dados, ou seja, cerca de 4 caracteres.

O analista sénior da Gartner, Will Sommer, afirmou: “A redução destes custos beneficiará de vários factores, incluindo melhorias na eficiência dos semicondutores e da infra-estrutura, inovações no desenho dos modelos, aumento da utilização dos chips, maior utilização de chips de inferência dedicados para casos de uso específicos e adopção de dispositivos de ponta em cenários específicos.”

Devido ao impacto destas tendências, a Gartner prevê que, até 2030, a relação custo-benefício dos grandes modelos de linguagem será até 100 vezes superior à dos modelos de início do mesmo porte desenvolvidos em 2022.

Os resultados do modelo de previsão são divididos em dois cenários de semicondutores:

Cenário de ponta: os dados simulados de inferência são baseados em chips de última geração.

Cenário híbrido tradicional: a inferência é baseada numa combinação típica de semicondutores existentes, que é avaliada com base em dados de previsão da consultora Gartner.

No cenário de previsão “híbrido”, o custo calculado é claramente mais elevado do que no cenário “de ponta”.

Cenários de previsão do custo de inferência de inteligência artificial geral

A redução de custos não irá popularizar a tecnologia inteligente de ponta

No entanto, a descida do preço dos tokens nos serviços de inteligência artificial generativa não será totalmente repercutida nos clientes empresariais. Além disso, o número de tokens necessários para aplicações de inteligência de ponta será muito superior ao das aplicações actuais dominantes. Por exemplo, o número de tokens necessários para que os modelos de agentes concluam cada tarefa é de 5 a 30 vezes o de um chatbot padrão de IA generativa, e permite executar ainda mais tarefas do que as realizadas por humanos com IA generativa.

Embora o menor custo unitário por token torne a IA generativa mais avançada mais capaz, estes progressos levarão a um aumento significativo da procura de tokens. Como a taxa de consumo de tokens é superior à velocidade de queda do custo dos tokens, prevê-se que o custo global de inferência aumente.

Sommer afirmou: “Os directores de produto não devem confundir a desvalorização de tokens comercializados com a democratização da inferência de ponta. À medida que os custos da tecnologia de inteligência comercializada se aproximarem de zero, os recursos de computação e os sistemas necessários para suportar inferência avançada continuarão a ser muito escassos. Aqueles directores de produto que hoje usam tokens baratos para mascarar problemas de ineficiência arquitectónica terão dificuldades amanhã em expandir a autonomia em escala.”

As plataformas capazes de coordenar e tratar cargas de trabalho sob vários modelos irão gerar valor. As tarefas regulares e de alta frequência devem ser atribuídas a modelos linguísticos pequenos e mais eficientes, especializados em domínios específicos, porque estes modelos conseguem executar tarefas de fluxos de trabalho específicos com melhor desempenho, a custos que são apenas uma pequena fracção das soluções genéricas. A inferência dispendiosa em níveis de ponta deve ser rigidamente limitada e reservada para tarefas de alta rentabilidade e raciocínio complexo.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar