El camino hacia AGI: la lógica detrás de ChatGPT, la compresión es inteligencia

2023-09-04 08:19:52

Pienso, luego existo

El mes pasado, en el campamento de codificación de mujeres en Shanhaiwu, compartí un número de “El camino hacia AGI: la compresión es inteligencia” como conferenciante. Descubrí que todos estaban muy interesados en AIGC y los modelos grandes, pero muchos amigos no lo entendían en la hora. , así que escribí esta explicación vernácula. Espero que sea útil para aquellos que estén interesados en AIGC. Si necesita una comprensión más profunda, consulte a Jack Rae (un miembro principal del equipo OpenAI) en Stanford después de leer este discurso de apertura: Compresión para AGI (esta es también la referencia principal de este artículo).

1 Comencemos con el aprendizaje automático

El aprendizaje automático (aprendizaje automático) puede resultar desconocido para los amigos que no tienen experiencia en informática. Pero todos los aspectos de nuestras vidas ya están cubiertos por el aprendizaje automático. Por ejemplo, cuando abrimos software como Zhihu, Douyin y Xiaohongshu, el sistema recomendará automáticamente contenido que pueda interesarnos; cuando acabo de charlar con mi amiga sobre la compra de un vestido de una determinada marca, abrí Taobao y encontré Las recomendaciones de búsqueda se han convertido en la marca; el sistema de correo nos ayudará a bloquear automáticamente el spam; las cámaras de tráfico toman fotografías de los conductores conduciendo para inferir si hay infracciones. Todo esto es gracias al aprendizaje automático.

Entonces, ¿qué es exactamente el aprendizaje automático? El aprendizaje automático fue propuesto por primera vez por Bayes en el teorema del mismo nombre publicado en 1783. El teorema de Bayes consiste en aprender de los datos de entrenamiento para hacer las mejores predicciones posibles sobre datos nuevos e invisibles. Para decirlo sin rodeos, es lo que llamamos “hacer inferencias de un caso a otros casos”.

Es la disciplina de dejar que las computadoras aprendan por sí mismas sin ser programadas explícitamente (Arthur, 1959), y es un subcampo de la inteligencia artificial. Algunas cosas podemos hacer mediante programación explícita, como calcular 188 a la 12ª potencia, o la distancia más corta de a a b. Pero hay algunos problemas con los que la programación explícita no puede ayudarnos.

Por ejemplo, esperamos que la computadora pueda convertirse en un excelente jugador de Go. Podemos programarla para que pueda jugar ajedrez consigo misma. Después de jugar 10.000 veces, la computadora puede observar que en un final, la tasa de ganancia de una pieza colocado en una determinada posición es mayor que cualquier otra ubicación, ahí es donde el programa elegirá. Debido a la poderosa potencia informática de la computadora, puede completar innumerables juegos de ajedrez en un corto período de tiempo, por lo que sabrá cada vez más cómo ganar y, eventualmente, se convertirá en un jugador de ajedrez que supere a los humanos. Dejar que la máquina aprenda por sí sola a encontrar la mejor solución es el proceso de aprendizaje automático, pero ¿qué ha aprendido exactamente la máquina? Este es un cuadro negro, solo podemos obtener un resultado de salida a partir de la entrada.

Los algoritmos de aprendizaje automático se pueden dividir en cuatro tipos según los métodos de aprendizaje: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje semisupervisado y aprendizaje por refuerzo. El más utilizado es el aprendizaje supervisado, pero ChatGPT eligió el aprendizaje por refuerzo como algoritmo central.

2 Aprendizaje por refuerzo versus aprendizaje supervisado

Dado que el aprendizaje supervisado es el algoritmo principal, ¿por qué OpenAI eligió el aprendizaje por refuerzo? Aquí primero presentamos los conceptos de los dos.

El aprendizaje supervisado se refiere a algoritmos que aprenden asignaciones entre entradas y salidas, aprendiendo de ejemplos proporcionados por el usuario. Por ejemplo, a menudo encontramos que algunos correos electrónicos se bloquean automáticamente y se tiran a la papelera. Entonces, ¿cómo determina el sistema si un correo electrónico es spam? Esto utiliza aprendizaje supervisado. Primero, los ingenieros necesitan alimentar al algoritmo con una gran cantidad de datos etiquetados. En este ejemplo, se puede usar un correo electrónico como entrada, y los resultados de salida correspondientes son de dos tipos: spam y no spam (Sí/No). , es decir, etiqueta). Supongamos que alimentamos 100.000 datos, el algoritmo aprenderá las características del spam en función de estos 100.000 datos. En este momento, cuando le ingresamos un correo electrónico nuevo, juzgará si el nuevo correo electrónico cumple con las características de spam según el modelo previamente entrenado, y decidirá así si lo intercepta.

El aprendizaje por refuerzo se parece más a un mecanismo de retroalimentación de recompensa. En el aprendizaje por refuerzo, proporcionamos información al modelo, pero no proporcionamos la respuesta correcta. El modelo necesita generar la respuesta por sí mismo. Luego, pida a una persona real que lea la respuesta generada y le dé una puntuación (por ejemplo, 80 puntos en una escala del 1 al 100). El objetivo del modelo es cómo responder para obtener una puntuación alta. Otro mecanismo es que el modelo genere múltiples respuestas y un mecanismo de puntuación le dice al modelo cuál respuesta es la mejor. El objetivo del modelo es aprender a generar respuestas con puntuaciones altas en lugar de respuestas con puntuaciones bajas. En ambos casos, el modelo aprende generando respuestas y recibiendo retroalimentación.

Por el contrario, el aprendizaje supervisado solo permite retroalimentación positiva (alimentamos al modelo con una serie de preguntas y sus respuestas correctas), mientras que el aprendizaje por refuerzo permite retroalimentación negativa (el modelo puede generar respuestas incorrectas y recibir retroalimentación que diga “esta respuesta no es buena, la próxima vez”). No hagas más eso"). La retroalimentación negativa es tan importante como la positiva, como lo han descubierto personas reales durante el proceso de aprendizaje. Probablemente esta sea la razón por la que OpenAI eligió la capacitación RLHF (es decir, capacitación de aprendizaje por refuerzo basada en retroalimentación humana).

Piénselo detenidamente, ¿es esto muy similar a la forma en que aprenden los humanos? Cuando aprendemos, también adquirimos una gran cantidad de conocimientos, luego tomamos exámenes para probar la situación de aprendizaje y finalmente aplicamos los conocimientos adquiridos a nuevos escenarios (transferir aprendizaje, que también es una de las bases de GPT). Por lo tanto, esta ronda de AIGC también se considera infinitamente cercana a AGI (Inteligencia General Artificial).

3 Camino a AGI

En pocas palabras, AGI es una inteligencia artificial que tiene la misma inteligencia que los humanos o la supera. ¿Crees que ChatGPT ya tiene ese sabor? Pero, ¿cómo juzgar la inteligencia de la inteligencia artificial?

En 1980, John Searle propuso el famoso experimento mental “La habitación china”. El proceso experimental se puede expresar de la siguiente manera:

Encerrar a una persona que no sabe chino y sólo habla inglés en una habitación cerrada con sólo una pequeña ventana. Hay un manual con traducciones al chino y al inglés en la sala. Hay suficiente papel manuscrito y lápices en la habitación. Al mismo tiempo, se enviaron trozos de papel escritos en chino a la habitación a través de la pequeña ventana. Las personas en la sala pueden usar su libro para traducir las palabras y responder en chino. Aunque no habla chino en absoluto, a través de este proceso, la persona en la sala puede hacer que cualquiera que esté fuera de la sala piense que habla chino con fluidez.

Un manual tan extenso obviamente representa un nivel muy bajo de inteligencia, porque una vez que se encuentra con palabras que no están en el manual, la persona no puede afrontarlas. Si podemos extraer algunas gramáticas y reglas de la gran cantidad de datos, el manual puede volverse más compacto, pero el sistema será más inteligente (mejor capacidad de generalización).

Cuanto más grueso es el manual, más débil es la inteligencia; cuanto más delgado es el manual, más fuerte es la inteligencia. Es como si la empresa contratara a una persona que parece más capaz, cuanto menos hay que explicar, y cuanto más débil es la capacidad, más hay que explicar.

El ejemplo anterior es una buena explicación de por qué la compresión es inteligencia: si desea mejorar la inteligencia de la IA, puede extraer la información efectiva requerida generalizando las reglas de extracción. De esta manera, podrá comprender lo que suelen decir los investigadores de PNL: ** El proceso de entrenamiento de GPT es una compresión de datos sin pérdidas. **

4 La compresión es inteligencia

El 28 de febrero, Jack Rae, un desarrollador central de OpenAI, compartió un tema llamado Compresión para AGI durante una entrevista en el Seminario MLSys de Stanford. El punto de vista central es: **El objetivo del modelo básico AGI es maximizar la efectividad información Máxima compresión sin pérdidas. **Al mismo tiempo, ofrece un análisis lógico de por qué este objetivo es razonable y cómo OpenAI creó ChatGPT con este objetivo.

La generalización es el proceso de extrapolar de lo conocido a lo desconocido. Como se muestra en la figura, el tema central que nos importa es cómo aprender los patrones de datos desconocidos y hacer predicciones (gris) a partir de datos existentes (amarillo). Cuanto más exactamente pueda un modelo predecir las partes grises, mayor será su capacidad de generalización.

Imaginemos que un software de computadora necesita traducir del inglés al chino. Si traduce todas las frases posibles al chino buscando en un diccionario, entonces podemos pensar que tiene la peor comprensión de la tarea de traducción, porque cualquier frase que aparezca fuera del diccionario tampoco lo hará. se puede traducir. Pero si el diccionario se reduce a un conjunto más pequeño de reglas (como algo de gramática o vocabulario básico), entonces se entenderá mejor, por lo que podemos calificarlo en función de qué tan comprimido esté el conjunto de reglas. De hecho, si podemos comprimirlo a la longitud mínima de descripción, entonces podemos decir que tiene la mejor comprensión para la tarea de traducción.

Para un conjunto de datos dado D, podemos comprimirlo usando un modelo generativo F. En la figura | D | representa la compresión sin pérdidas del conjunto de datos D. El tamaño de la compresión sin pérdidas se puede expresar como el logaritmo negativo del modelo generativo. evaluado en D. Luego agregue la longitud mínima de descripción de la función estimada.

Entonces, ¿cómo logran los modelos grandes una compresión sin pérdidas? Primero debemos comprender la naturaleza de GPT. GPT es en realidad un gran diccionario basado en Transformer, que es esencialmente Next Token Prediction (razonamiento a continuación). En pocas palabras, se trata de predecir la última palabra o frase que puede aparecer después de una secuencia de texto determinada. Por ejemplo, si digo: “¿Dormiste bien anoche?” antes de terminar de hablar, sabrás que lo más probable es que diga: “¿Dormiste bien anoche?”. Puedes inferir que continuaré diciendo: “¿Está bien?” El proceso es el siguiente razonamiento.

¿Se podría decir que es obvio que lo que se aprende de esta manera no es sólo la relación estadística superficial entre palabras? ¿Cómo surgió la inteligencia?

Supongamos que necesita transmitir algunos datos desde la lejana galaxia Centauri a la Tierra, pero el ancho de banda es muy valioso. Debe utilizar el ancho de banda mínimo para transmitir los datos y asegurarse de que el otro extremo pueda recuperar sus datos sin pérdidas. Puedes utilizar este método:

Primero, prepare un código de entrenamiento de modelo de lenguaje que generará el mismo modelo de red neuronal cada vez que lo ejecute.

En segundo lugar, ejecute el programa de capacitación en N datos y, en el momento t, extraiga la probabilidad de Xt bajo la distribución de probabilidad Pt de todos los tokens y use codificación aritmética para convertirla en un decimal binario, que se registra como Zt. Por analogía se obtiene una lista formada por Z1, Z2, Z3, …, Zn.

Si desea restaurar estos N datos sin pérdidas en el otro extremo, solo necesita transmitir los dos contenidos siguientes: la lista de Z1-Zn y el código de entrenamiento del modelo de lenguaje.

Al decodificar en el extremo receptor, inicializamos la red utilizando los códigos de entrenamiento recibidos. En la marca de tiempo t, el modelo usa Pt para decodificar aritméticamente Zt para obtener Xt. Cabe señalar que la distribución de probabilidad del token Pt en el momento t es completamente consistente entre el emisor y el receptor.

Todo el proceso es un proceso de compresión de datos sin pérdidas. Según el código de entrenamiento del modelo de lenguaje, comprimimos N datos en una cadena de números Z1-Zn, y el tamaño de cada dato comprimido es -logp (x). Cabe señalar que durante todo el proceso, no necesitamos enviar toda la red neuronal (cientos de miles de millones de parámetros).

Por lo tanto, el número total de bits para comprimir el conjunto de datos D usando el modelo de lenguaje se puede expresar mediante la siguiente fórmula:

La longitud de la descripción de un modelo basado en transformador es de aproximadamente 100 kb ~ 1 MB (todo el tamaño de código necesario). Los parámetros del modelo no pertenecen a la longitud de descripción del modelo.

A menudo sentimos que chatgpt está lleno de errores en preguntas fácticas. Por ejemplo, cuando se le pregunta de qué ciudad es Liu Cixin, el modelo seguirá dando respuestas incorrectas. Esto se debe a que durante el proceso de entrenamiento, el modelo memoriza lentamente algunos datos de entrenamiento y los parámetros del modelo pueden considerarse aproximadamente como una compresión de datos con pérdida para los datos de entrenamiento. “Imagen borrosa” significa. LLM es una compresión sin pérdidas del conjunto de datos original, que puede demostrarse estrictamente matemáticamente. La compresión con pérdidas que dijo Ted Chiang es una analogía literaria muy abstracta.

Recuerde esta imagen, lo que nos importa no es el contenido dentro del círculo amarillo, sino la parte gris afuera, porque nos importa cómo usar menos contenido para obtener más conocimiento, es decir, capacidad de generalización. En comparación con los parámetros del montón, ¡la generalización es inteligente!

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta