CICC: En 2026, los grandes modelos lograrán más avances en aprendizaje por refuerzo, memoria de modelos, ingeniería de contexto y otros aspectos

robot
Generación de resúmenes en curso

CICC señaló que, mirando atrás a 2025, las capacidades técnicas de los grandes modelos globales evolucionarán, superarán gradualmente los escenarios de productividad y lograrán avances significativos en la dirección de la inferencia, programación, capacidades agentes y multimodales, pero aún existen deficiencias en las capacidades generales del modelo en términos de estabilidad y tasa de alucinación. De cara a 2026, CICC cree que los grandes modelos lograrán más avances en aprendizaje por refuerzo, memoria de modelos, ingeniería de contexto, etc., desde la generación corta de contexto hasta tareas de cadena de pensamiento largas, desde la interacción textual hasta la multimodalidad nativa, y darán un paso más hacia alcanzar el objetivo a largo plazo de la AGI.

El texto completo está abajo

CICC | Perspectivas a 10 años de la IA (26): Tecnología modelo para las principales tendencias en 2026

Investigación del CICC

Mirando atrás a 2025, las capacidades técnicas de los grandes modelos globales evolucionarán, superarán gradualmente escenarios de productividad y lograrán avances significativos en la dirección de la inferencia, la programación, las capacidades agentes y multimodales, pero aún existen deficiencias en términos de estabilidad, tasa de alucinación, etc. De cara a 2026, creemos que los grandes modelos lograrán más avances en aprendizaje por refuerzo, memoria de modelos, ingeniería de contexto, etc., desde la generación corta de contexto hasta tareas de larga cadena de pensamiento, desde la interacción textual hasta la multimodalidad nativa, y darán un paso más cerca de alcanzar el objetivo a largo plazo de la AGI.

Resumen

Esperamos que la Ley de Escalado previa al entrenamiento reaparezca en 2026, y que el número de parámetros del modelo insignia se lleve a un nivel superior. En cuanto a la arquitectura, la arquitectura del modelo basada en Transformer continúa, y el MoE que equilibra rendimiento y eficiencia se ha convertido en un consenso, y las diferentes rutas de mecanismos de atención siguen optimizándose y cambiándose. En términos de paradigma, la Ley de Escalado + datos de alta calidad + aprendizaje por refuerzo en la etapa de pre-entrenamiento mejorará conjuntamente las capacidades del modelo. Una de las expectativas para 2026 es que, con la madurez y promoción de los chips de la serie GB de NVIDIA, el modelo se basará en el clúster Wanka de mayor rendimiento en la etapa previa al entrenamiento de Scaling-Law, y que el número de parámetros del modelo y el límite superior de inteligencia mejorarán aún más.

La importancia del aprendizaje por refuerzo ha aumentado y se ha convertido en la clave para desbloquear las capacidades avanzadas de los modelos. La introducción del aprendizaje por refuerzo eleva el límite superior de la inteligencia del modelo, permitiendo que el modelo piense y razone de forma más lógica y en línea con las preferencias humanas, y su esencia es “datos autogenerados + múltiples rondas de iteración”, y la clave del aprendizaje por refuerzo reside en la potencia de cálculo a gran escala + datos de alta calidad. Fabricantes extranjeros de modelos como OpenAI y Gemini otorgan gran importancia al aprendizaje por refuerzo, y DeepSeek y Alibaba Qianwen también están siguiendo el ejemplo, y esperamos que la proporción de aprendizaje por refuerzo de los fabricantes de modelos tanto nacionales como internacionales aumente aún más en 2026.

Nuevas vías como el aprendizaje continuo, la memoria de modelos y los modelos de mundos darán paso a avances fundamentales. El aprendizaje continuo y la memoria de modelos resuelven esencialmente el problema del “olvido catastrófico” de grandes modelos, permitiendo que el modelo tenga un mecanismo de memoria selectiva. El núcleo de los algoritmos y arquitecturas de Google, como Titans, MIRAS y Aprendizaje Anidado, es una forma para que los modelos ajusten dinámicamente el aprendizaje y la memoria en función del tiempo y la importancia de las tareas, logrando así un aprendizaje continuo e incluso a lo largo de toda la vida. Además, los modelos de mundo que se centran en comprender las leyes causales del mundo físico tienen oportunidades de avance bajo la exploración de diferentes caminos de modelos como Genio 3 y Mármol.

Riesgo

La iteración tecnológica no cumple con las expectativas; Las arquitecturas de modelos existentes y los paradigmas de entrenamiento se ven alterados.

(Fuente del artículo: People’s Financial News)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado