¿ChatGPT es estúpido o viejo?

Fuente original: Nuevos conocimientos de ciencia y tecnología.

Fuente de la imagen: Generada por Unbounded AI ‌

“El desempeño pasado no es garantía de resultados futuros.” Ésta es la letra pequeña de la mayoría de los modelos de gestión financiera. Dentro del negocio de productos, esto se denomina deriva, decadencia u obsolescencia del modelo. Las cosas cambian y el rendimiento del modelo se degrada con el tiempo. El estándar de medición final es el indicador de calidad del modelo, que puede ser la precisión, la tasa de error promedio o algunos KPI comerciales posteriores, como la tasa de clics. Ningún modelo funciona para siempre, pero el ritmo de declive varía. ‍ Algunos productos se pueden utilizar durante años sin necesidad de actualizaciones, como ciertos modelos de lenguaje o visión por computadora, o cualquier sistema de toma de decisiones en un entorno aislado y estable, como las condiciones experimentales comunes. Si desea garantizar la precisión del modelo, debe entrenar nuevos datos todos los días. Este es un defecto paradigmático del modelo de aprendizaje automático y también hace que la implementación de inteligencia artificial no se pueda realizar de una vez por todas como la implementación de software. . Este último se ha creado durante décadas y actualmente los productos de IA más avanzados todavía utilizan tecnología de software de años anteriores. Mientras sigan siendo útiles, incluso si la tecnología se vuelve obsoleta, seguirán vivos en cada byte. Sin embargo, los grandes modelos representados por ChatGPT, conocidos como los productos de inteligencia artificial más avanzados, se han enfrentado a preguntas sobre si se están volviendo obsoletos y envejeciendo después de experimentar una disminución en su popularidad. ** Sin viento, sin olas. Los usuarios pasan cada vez menos tiempo en ChatGPT, pasando de 8,7 minutos en marzo a 7 minutos en agosto. Desde el lado, se refleja que cuando la oferta de herramientas de modelos grandes está creciendo rápidamente, ChatGPT, que es solo una herramienta de productividad, no parece ser suficiente para convertirse en el favorito de la Generación Z, el grupo de usuarios principal. La popularidad temporal no es suficiente para sacudir el dominio de OpenAI, que apuesta por convertirse en una tienda de aplicaciones en la era de la IA. El problema más importante es que el envejecimiento de la productividad de ChatGPT es la razón principal de la disminución de la confianza entre muchos usuarios antiguos. Desde mayo, ha habido publicaciones en el foro OpenAI que discuten que el rendimiento de GPT-4 no es tan bueno como antes. Entonces, ¿ChatGPT está obsoleto? ¿Los modelos grandes representados por ChatGPT envejecerán como los modelos anteriores de aprendizaje automático? Sin comprender estas cuestiones, no seremos capaces de encontrar un camino de desarrollo sostenible para humanos y máquinas en medio de la locura interminable por los modelos grandes.

**01 ¿ChatGPT está obsoleto? **

Los últimos datos del proveedor de servicios de software de IA Salesforce muestran que el 67% de los usuarios de modelos grandes son la Generación Z o Millennials; más del 68% de las personas que rara vez utilizan la IA generativa o se quedan atrás en este sentido son la Generación X o los baby boomers. La diferencia generacional muestra que la Generación Z se está convirtiendo en el grupo dominante que adopta modelos grandes. Kelly Eliyahu, comercializadora de productos de Salesforce, dijo: “La Generación Z es en realidad la generación de IA y constituye el grupo de superusuarios. El 70% de la Generación Z utiliza IA generativa y al menos la mitad la usa cada semana o más.” Sin embargo, como líder en productos de modelos grandes, el desempeño de ChatGPT entre la generación Z no es sobresaliente.

Según datos de julio de la agencia de investigación de mercado Similarweb, **ChatGPT fue utilizado por el 27% de las personas de la Generación Z, frente al 30% en abril. En comparación, Character.ai, otro producto modelo a gran escala que permite a los usuarios diseñar sus propios personajes de inteligencia artificial, tiene una tasa de penetración del 60% entre personas de 18 a 24 años. ** Gracias a la popularidad de la Generación Z, las aplicaciones iOS y Android de Character.ai tienen actualmente 4,2 millones de usuarios activos mensuales en los Estados Unidos, lo que se acerca cada vez más a los 6 millones de usuarios activos mensuales del ChatGPT móvil. A diferencia de la IA conversacional de ChatGPT, Character.AI agrega dos funciones principales de personalización y UGC sobre esta base, lo que le brinda escenarios de uso más ricos que la primera. Por un lado, los usuarios pueden personalizar los roles de IA según sus necesidades personales para satisfacer las necesidades de personalización de la Generación Z. Al mismo tiempo, los personajes de IA creados por estos usuarios también pueden ser utilizados por todos los usuarios de la plataforma para crear una atmósfera de comunidad de IA. Por ejemplo, personajes virtuales como Sócrates y Dios han circulado anteriormente en plataformas de redes sociales, así como imágenes de inteligencia artificial de celebridades empresariales como Musk creadas de forma independiente por el gobierno. Por otro lado, la función personalizada de personalización en profundidad + chat grupal también hace que los usuarios confíen en la plataforma para la inteligencia emocional. Los comentarios públicos de usuarios de muchas plataformas de redes sociales indican que la experiencia del chat es demasiado realista, como si “los personajes que creaste tuvieran vida, como hablar con una persona real” y “fuese lo más parecido a un amigo imaginario o un ángel de la guarda”. hasta ahora." Posiblemente debido a la presión de Character.AI, OpenAI emitió un breve comunicado en su sitio web oficial el 16 de agosto de 2023, anunciando la adquisición de la startup estadounidense Global Illumination y poniendo a todo el equipo bajo su protección. Esta pequeña empresa con sólo dos años de historia y ocho empleados se dedica principalmente al uso de inteligencia artificial para crear herramientas inteligentes, infraestructura digital y experiencias digitales. Detrás de la adquisición, es probable que OpenAI se comprometa a mejorar de manera rica la experiencia digital actual de los grandes modelos.

02 El envejecimiento de la inteligencia artificial

El envejecimiento de ChatGPT a nivel de experiencia digital de modelo grande afecta su efecto de matar el tiempo. Como herramienta de productividad, la precisión de los resultados generados es errática, lo que también afecta la adherencia al usuario.

Según una encuesta anterior de Salesforce, casi el 60% de los usuarios de modelos grandes cree que está dominando esta tecnología gracias al tiempo de formación acumulado. Sin embargo, el dominio actual de esta tecnología está cambiando con el tiempo.

Ya en mayo, los antiguos usuarios de modelos grandes comenzaron a quejarse en el foro OpenAI de que GPT-4 “tenía dificultades para realizar cosas que antes funcionaban bien”. Business Insider informó en julio que muchos usuarios antiguos describieron GPT-4 como “vago” y “tonto” en comparación con sus capacidades de inferencia anteriores y otros resultados. Como el funcionario no respondió a esto, la gente comenzó a especular sobre las razones de la disminución en el rendimiento de GPT-4: ¿podría deberse a los problemas de flujo de caja anteriores de OpenAI? La especulación generalizada se centra en la degradación del rendimiento debido a la optimización de costos. Algunos investigadores dicen que OpenAI puede estar utilizando modelos más pequeños detrás de la API para reducir el costo de ejecutar ChatGPT. Sin embargo, esta posibilidad fue posteriormente negada por Peter Welinder, vicepresidente de producto de OpenAI. Dijo en las redes sociales: “No estamos haciendo que GPT-4 sea más tonto. Una de las suposiciones actuales es que cuando lo uses con más frecuencia, comenzarás a notar problemas que no habías notado antes”. Más personas y un uso más prolongado han expuesto las limitaciones de ChatGPT. Respecto a esta hipótesis, los investigadores intentaron presentar “cambios en la relación entre el rendimiento de ChatGPT y el tiempo” mediante experimentos más rigurosos.

Un artículo de investigación titulado “¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?” presentado por la Universidad de Stanford y la Universidad de California, Berkeley, en julio muestra que: **La misma versión de un modelo grande puede cambiar en un período de tiempo relativamente corto Se han producido grandes cambios. ** De marzo a junio, los investigadores probaron dos versiones de GPT-3.5 y GPT-4, recopilaron y evaluaron los resultados de generación de cuatro tareas de referencia comunes: preguntas matemáticas, respuesta a preguntas sensibles, generación de código y razonamiento visual. Los resultados muestran que ya sea GPT-3.5 o GPT-4, el rendimiento y los resultados de generación de ambos pueden cambiar con el tiempo. En términos de capacidad matemática, GPT-4 (marzo de 2023) funciona bastante bien en la identificación de números primos y números compuestos (84% de precisión), pero GPT-4 (junio de 2023) funciona mal en el mismo problema (51% de precisión). Curiosamente, CPT-3.5 realizó esta tarea mucho mejor en junio que en marzo. Sin embargo, en términos de preguntas sensibles, GPT-4 estaba menos dispuesto a responder preguntas sensibles en junio que en marzo; en términos de capacidades de codificación, tanto GPT-4 como GPT-3.5 mostraron más errores en junio que en marzo. Los investigadores creen que aunque no existe una relación lineal obvia entre el rendimiento de ChatGPT y el tiempo, la precisión sí fluctúa.

Esto no es sólo un problema del ChatGPT en sí, sino también un problema común a todos los modelos de IA anteriores. **Según un estudio de 2022 realizado por el MIT, la Universidad de Harvard, la Universidad de Monterey y la Universidad de Cambridge, el 91% de los modelos de aprendizaje automático se degradarán con el tiempo. Los investigadores llaman a este fenómeno “inteligencia artificial” Envejecimiento Inteligente”. ** Por ejemplo, Google Health desarrolló una vez un modelo de aprendizaje profundo que puede detectar enfermedades de la retina mediante escaneos oculares de pacientes. El modelo logró una precisión del 90% durante la fase de entrenamiento, pero no logró proporcionar resultados precisos en la vida real. Principalmente porque en el laboratorio se utilizan datos de entrenamiento de alta calidad, pero los escaneos oculares del mundo real son de menor calidad. Debido al envejecimiento de los modelos de aprendizaje automático, las tecnologías de inteligencia artificial que surgieron del laboratorio en el pasado se basaban principalmente en tecnología de reconocimiento de voz única, y productos como los parlantes inteligentes fueron los primeros en volverse populares. Según una encuesta de la Oficina del Censo de EE. UU. de 2018 a 583.000 empresas estadounidenses, solo el 2,8 % utilizó modelos de aprendizaje automático para aportar ventajas a sus operaciones. Sin embargo, con el avance en las capacidades de emergencia inteligente de los modelos grandes, la velocidad de envejecimiento de los modelos de aprendizaje automático se ha debilitado significativamente y gradualmente están saliendo del laboratorio hacia una audiencia más amplia. Sin embargo, todavía hay imprevisibilidad bajo la caja negra de las capacidades emergentes, lo que hace que muchas personas se pregunten si ChatGPT puede mantener una mejora continua en el rendimiento de la IA a largo plazo.

03 Anti-envejecimiento bajo la caja negra

La esencia del envejecimiento de la inteligencia artificial es en realidad el defecto del paradigma de los modelos de aprendizaje automático.

En el pasado, los modelos de aprendizaje automático se entrenaban en función de la correspondencia entre tareas específicas y datos específicos. A través de una gran cantidad de ejemplos, primero enseñe al modelo qué es bueno y qué es malo en ese campo, y luego ajuste el peso del modelo para generar resultados apropiados. Bajo esta idea, cada vez que se hace algo nuevo o la distribución de datos cambia significativamente, se debe volver a entrenar el modelo. Hay infinitas cosas nuevas y datos nuevos, y el modelo solo se puede actualizar. Sin embargo, la actualización del modelo también hará que las cosas que se hicieron bien en el pasado de repente no se hagan bien, lo que limitará aún más la aplicación. **En resumen, en los modelos tradicionales de aprendizaje automático, la esencia del volante de datos es iterar el modelo y utilizar nuevos modelos para resolver nuevos problemas. ** Sin embargo, han surgido grandes modelos representados por ChatGPT con capacidades de aprendizaje autónomo y han roto este paradigma. En el pasado, el aprendizaje automático primero “come” los datos y luego los “imita”, basándose en relaciones de correspondencia; modelos grandes como ChatGPT “enseñan” los datos y luego los “comprenden”, basándose en la “lógica interna”. En este caso, el gran modelo en sí no cambia y, en teoría, puede permanecer joven para siempre. Sin embargo, algunos profesionales dijeron que, al igual que la aparición de la inteligencia en modelos grandes, se desarrolla de forma no lineal, es impredecible y aparece repentinamente. También se desconoce si los modelos grandes envejecerán con el tiempo y surgirán con incertidumbres impredecibles. **En otras palabras, después de que ChatGPT surgiera con un rendimiento inteligente que era difícil de derivar teóricamente, también comenzó a surgir con imprevisibilidad e incertidumbre. ** Con respecto a la naturaleza de caja negra de la “emergencia”, en la conferencia de lanzamiento del gran modelo de código abierto Baichuan Intelligent Baichuan2 el 6 de septiembre, Zhang Bo, académico de la Academia de Ciencias de China y decano honorario del Instituto de Inteligencia Artificial de la Universidad de Tsinghua, dijo: "Hasta ahora, el mundo no tiene confianza en el gran modelo de código abierto. El principio de funcionamiento teórico del modelo y los fenómenos producidos no están claros, y todas las conclusiones se deducen para producir el fenómeno de emergencia. La llamada emergencia es para dar “Un retiro. Cuando la explicación no está clara, se dice que es una emergencia. De hecho, refleja que no sabemos nada al respecto”. En su opinión, la cuestión de por qué los modelos grandes producen alucinaciones implica la diferencia entre ChatGPT y los principios de generación del lenguaje natural humano. La diferencia más fundamental es que el lenguaje generado por ChatGPT está impulsado externamente, mientras que el lenguaje humano está impulsado por sus propias intenciones, por lo que no se puede garantizar la exactitud y racionalidad del contenido de ChatGPT. Después de subirse al tren a través de una serie de exageraciones conceptuales, el desafío para aquellos comprometidos con el desarrollo de modelos básicos de productividad será cómo garantizar la confiabilidad y precisión de la producción continua de sus productos. Pero en el caso de los productos de entretenimiento relacionados con modelos grandes, como dijo el cofundador de Character.AI, Noam Shazeer, en el New York Times: “Estos sistemas no están diseñados para la verdad. Están diseñados para un diálogo razonable”. artistas de mierda. Las enormes olas del gran modelo han comenzado a ramificarse.

Referencia:

  • Gizmodo: ¿ChatGPT está empeorando?
  • La aplicación Character.ai de TechCrunch-Al se está poniendo al día con ChatGPT en los EE. UU.
  • Monitoreo del aprendizaje automático: por qué debería preocuparse por la deriva de datos y conceptos
  • Registro de estudio de Miss M: las cinco preguntas más importantes sobre ChatGPT
  • Instituto Internacional de Gobernanza de Inteligencia Artificial de la Universidad de Tsinghua: la investigación sobre modelos grandes es muy urgente y no podemos decir simplemente “emergencia” si la explicación no es clara
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado