Gartner: para 2030, los costos de realizar inferencias en modelos de lenguaje grande se reducirán en más del 90%

MaticHoleFiller · 2026-04-01T01:48:47+00:00

Según Gartner, para 2030, los costos de realizar inferencias en un modelo de lenguaje grande (LLM) con billones de parámetros disminuirán en más del 90% en comparación con 2025, lo que permitirá a los proveedores de inteligencia artificial generativa (GenAI) ahorrar una gran cantidad de costos.Los tokens de IA son la unidad de datos que procesan los modelos de inteligencia artificial generativa. En este análisis, un token equivale a 3.5 bytes de datos, es decir, aproximadamente 4 caracteres.Will Sommer, analista senior de Gartner, afirmó: “La reducción de estos costos se beneficiará de mejoras en la eficiencia de semiconductores e infraestructura, innovaciones en el diseño de modelos, mayor utilización de chips, un uso más frecuente de chips de inferencia especializados para usos específicos y la aplicación de dispositivos en el borde en escenarios particulares, entre otros factores.”Debido a estas tendencias, Gartner predice que, para 2030, los grandes

MaticHoleFiller

2026-04-01 01:48:47

Según Gartner, para 2030 el costo de realizar inferencias en un gran modelo de lenguaje (LLM) con un billón de parámetros se reducirá en más del 90% en comparación con 2025, lo que permitirá a los proveedores de inteligencia artificial generativa (GenAI) ahorrar una gran cantidad de costos.

El token de IA es la unidad de datos que procesa un modelo de IA generativa. En este análisis, un token equivale a 3,5 bytes de datos, es decir, aproximadamente 4 caracteres.

El analista sénior de Gartner, Will Sommer, afirmó: “Estas reducciones de costos se deben a múltiples factores, como mejoras en la eficiencia de los semiconductores y la infraestructura, innovaciones en el diseño de modelos, mayor utilización de chips, un uso más frecuente de chips de inferencia especializados para casos de uso específicos y la aplicación de dispositivos en el edge en escenarios determinados”.

Debido al impacto de estas tendencias, Gartner prevé que para 2030 la rentabilidad de los grandes modelos de lenguaje será hasta 100 veces mayor que la de los modelos iniciales de escala similar desarrollados en 2022.

Los resultados del modelo de pronóstico se dividen en dos escenarios de semiconductores:

Escenario de vanguardia: el modelo procesa datos simulados basados en chips de última generación.

Escenario híbrido tradicional: el modelo procesa datos basados en una combinación típica de semiconductores existentes, evaluada con referencia a los datos de pronóstico de la firma de consultoría Gartner.

En el escenario de pronóstico “híbrido”, el costo calculado es claramente más alto que en el escenario “de vanguardia”.

Escenarios de pronóstico del costo de la inferencia de IA general

La reducción de costos no hará que las tecnologías inteligentes de vanguardia se generalicen

Sin embargo, la caída en el precio de los tokens para los proveedores de servicios de IA generativa no se trasladará por completo a los clientes empresariales. Además, la cantidad de tokens necesaria para aplicaciones inteligentes de vanguardia será muy superior a la de las aplicaciones actuales más comunes. Por ejemplo, la cantidad de tokens necesaria para que el modelo agente complete cada tarea es de 5 a 30 veces la de un chatbot estándar de IA generativa, y además puede ejecutar más tipos de tareas que las que los humanos pueden realizar usando IA generativa.

Aunque el menor costo unitario por token dotará a la IA generativa más avanzada de capacidades más fuertes, estos avances harán que la demanda de tokens aumente significativamente. Debido a que la velocidad de consumo de los tokens es mayor que la velocidad de disminución de sus costos, se espera que el costo total de inferencia aumente.

Sommer afirmó: “Los directores de producto no deberían confundir la depreciación de los tokens comercializables con la democratización de la inferencia de vanguardia. A medida que los costos de la inteligencia comercializada se acerquen a cero, los recursos informáticos y los sistemas necesarios para respaldar la inferencia avanzada siguen siendo extremadamente escasos. Esos directores de producto que hoy en día encubren problemas de eficiencia de arquitectura con tokens baratos tendrán dificultades para lograr una expansión a escala de la autonomía mañana”.

Las plataformas que puedan coordinar y gestionar cargas de trabajo bajo diferentes modelos obtendrán valor. Las tareas habituales y de alta frecuencia deben asignarse a modelos lingüísticos pequeños y más eficientes, enfocados en dominios específicos, porque estos modelos pueden completar tareas específicas de mejor manera en flujos de trabajo concretos con un costo que es solo una fracción del de las soluciones genéricas. La inferencia de alto nivel de los modelos debe limitarse estrictamente y reservarse para tareas de alta rentabilidad y de razonamiento complejo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta