Los investigadores están desentrañando uno de los mayores misterios detrás de los modelos de lenguaje de inteligencia artificial (IA), que impulsan herramientas de generación de texto e imágenes como DALL-E y ChatGPT.
Los expertos en aprendizaje automático y científicos han notado algo extraño en los modelos de lenguaje grande (LLM) como GPT-3 de OpenAI y LaMDA de Google: son inexplicablemente buenos para realizar tareas para las que no han sido alteradas específicamente.
Investigadores del Instituto Tecnológico de Massachusetts, la Universidad de Stanford y Google exploran este fenómeno en un estudio publicado en el servidor de preimpresión arXiv. El fenómeno es el aprendizaje en contexto, lo que permite al sistema aprender a realizar nuevas tareas de manera confiable a partir de solo unos pocos ejemplos.
El modelo de lenguaje limpio puede tomar una lista de entradas y salidas y crear predicciones nuevas, a menudo correctas, sobre una tarea para la que no ha sido perturbada. Esto sugiere que los modelos más grandes funcionan creando y entrenando internamente modelos de lenguaje más pequeños y simples.
Los investigadores podrán probar su teoría analizando un transformador, un modelo de red neuronal que aplica un concepto llamado “autoatención” para rastrear relaciones en datos secuenciales, como palabras en una oración. En resumen, los modelos de IA aparentemente crean modelos más pequeños dentro de sí mismos para lograr nuevas tareas. Esto sugiere que los modelos más grandes funcionan creando y entrenando internamente modelos de lenguaje más pequeños y simples. Los investigadores podrán probar su teoría analizando un transformador, un modelo de red neuronal que aplica un concepto llamado “autoatención” para rastrear relaciones en datos secuenciales, como palabras en una oración. En resumen, los modelos de IA aparentemente crean modelos más pequeños dentro de sí mismos para lograr nuevas tareas. Esto sugiere que los modelos más grandes funcionan creando y entrenando internamente modelos de lenguaje más pequeños y simples. Los investigadores podrán probar su teoría analizando un transformador, un modelo de red neuronal que aplica un concepto llamado “autoatención” para rastrear relaciones en datos secuenciales, como palabras en una oración. En resumen, los modelos de IA aparentemente crean modelos más pequeños dentro de sí mismos para lograr nuevas tareas.
Pero, ¿cuál es la diferencia en un modelo que aprende y no simplemente memoriza?
“El aprendizaje está entrelazado con el conocimiento [existente]”, dijo a Motherboard Ekin Akyürek, autor principal del estudio y estudiante de doctorado en el MIT. “Demostramos que es posible que estos modelos aprendan de los ejemplos sobre la marcha sin ninguna actualización de parámetros que apliquemos al modelo”.
Esto significa que el modelo no solo copia datos de entrenamiento, sino que probablemente se basa en conocimientos previos, tal como lo harían los humanos y los animales. Los investigadores no probaron su teoría con ChatGPT ni con ninguna otra de las populares herramientas de aprendizaje automático de las que el público se ha enamorado tanto últimamente. En cambio, el equipo de Akyürek trabajó con modelos más pequeños y tareas más sencillas. Pero debido a que son el mismo tipo de modelo, su trabajo ofrece una idea de los aspectos prácticos de otros sistemas más conocidos.
Los investigadores llevaron a cabo su experimento dando al modelo datos sintéticos o indicaciones que el programa nunca podría haber visto antes. A pesar de esto, el modelo de lenguaje pudo generalizar y luego extrapolar el conocimiento de ellos, dijo Akyürek. Esto llevó al equipo a plantear la hipótesis de que los modelos de IA que exhiben aprendizaje en contexto en realidad crean modelos más pequeños dentro de sí mismos para lograr nuevas tareas. Los investigadores pudieron probar su teoría analizando un transformador, un modelo de red neuronal que aplica un concepto llamado “autoatención” para rastrear relaciones en datos secuenciales, como palabras en una oración.
Al observar en acción, los investigadores descubrieron que su transformador podía escribir su propio modelo de aprendizaje automático en sus estados ocultos, o el espacio entre las capas de entrada y salida. Esto sugiere que es posible tanto teórica como empíricamente que los modelos de lenguaje aparentemente inventen, por sí mismos, “algoritmos de aprendizaje bien conocidos y ampliamente estudiados”, dijo Akyürek.
En otras palabras, estos modelos más grandes funcionan creando y entrenando internamente modelos de lenguaje más pequeños y simples. El concepto es más fácil de entender si lo imaginas como un escenario de computadora dentro de una computadora al estilo Matryoshka .
De los resultados del equipo, el científico de Facebook AI Research, Mark Lewis, dijo en un comunicado que el estudio es un “trampolín para comprender cómo los modelos pueden aprender tareas más complejas y ayudará a los investigadores a diseñar mejores métodos de entrenamiento para que los modelos de lenguaje mejoren aún más su rendimiento”. ”
Si bien Akyürek está de acuerdo en que los modelos de lenguaje como GPT-3 abrirán nuevas posibilidades para la ciencia, dice que ya han cambiado la forma en que los humanos recuperan y procesan la información. Mientras que antes escribir un aviso en Google solo recuperaba información y nosotros, los humanos, éramos responsables de elegir (leer: hacer clic) qué información funcionaba para responder mejor a esa consulta, “Ahora, GPT puede recuperar la información de la web pero también procesarla por usted”. ”, le dijo a Motherboard. “Por eso es muy importante aprender a generar estos modelos para los casos de datos que desea resolver”.
Por supuesto, dejar el procesamiento de la información a los sistemas automatizados conlleva todo tipo de problemas nuevos. Los investigadores de ética de IA han demostrado repetidamente cómo sistemas como ChatGPT reproducen sesgos sexistas y racistas que son difíciles de mitigar e imposibles de eliminar por completo. Muchos han argumentado que simplemente no es posible prevenir este daño cuando los modelos de IA se acercan al tamaño y la complejidad de algo como GPT-3.
Aunque todavía hay mucha incertidumbre sobre lo que los modelos de aprendizaje futuros podrán lograr e incluso sobre lo que los modelos actuales pueden hacer hoy, el estudio concluye que el aprendizaje en contexto podría eventualmente usarse para resolver muchos de los problemas que los investigadores de aprendizaje automático sin duda resolverán. cara al camino.