Poderes de la IA

Límites de un sistema: desbloquear la IA

El aprendizaje profundo en el que se basan los modelos actuales de inteligencia artificial es inherentemente limitado. En una respuesta a Sam Altman, Gary Marcus propone transformar la forma en que pensamos la IA. Entreve la posibilidad de un modelo radical e híbrido -uno que vaya mucho más allá de la simple puesta a escala-.

Autor
Victor Storchan
Portada
© COVER IMAGES/SIPA

Escrito en marzo de 2022, este texto de Gary Marcus, profesor emérito de psicología y ciencias neuronales en la Universidad de Nueva York, y autor en psicología y ciencias neuronales, precede en unos meses a la irrupción en la esfera pública de sistemas como ChatGPT o GTP-4, que democratizan el uso del Deep Learning entre un gran público dividido entre el tecno-optimismo exaltado y la ansiedad paralizante. No obstante, este texto es de gran actualidad, ya que responde a la visión «triunfalista» compartida por Sam Altman en  Moore’s Law for everything y pone de relieve los límites de la tecnología tal y como los percibe el autor. Al hacerlo, Gary Marcus añade un contexto científico e histórico al debate para arrojar luz sobre una sociedad perpleja ante el futuro de la IA: desde las consecuencias a corto plazo hasta las catástrofes existenciales.

El nuevo paradigma en juego (la ampliación de técnicas conocidas desde hace años aplicándolas a modelos y conjuntos de datos cada vez mayores) ha propiciado la aparición de una nueva generación de modelos cuyas prestaciones sin precedentes (generación de código o imágenes, redacción de correos electrónicos, compilación, análisis y síntesis de información, etc.) están volviendo a barajar las cartas de equilibrios tecnológicos que antes se percibían como intangibles. En primera línea, gigantes digitales como Google 1 o Meta 2 están reexaminando sus estrategias de despliegue de productos para hacer frente a lo que identifican como una seria amenaza de disrupción tecnológica.

¿Podemos deducir de ello que esta tecnología conducirá al objetivo original de los pioneros de la disciplina de dotar a la máquina de una inteligencia comparable a la de un humano capaz de realizar cualquier tarea cognitiva? ¿O, por el contrario, este paradigma carece fundamentalmente de sustancia para ser plenamente transformador? 

Para Gary Marcus, el enfoque es intrínsecamente limitado: más parecidos a generadores de pastiches o paráfrasis de diversos grados de sofisticación, los modelos actuales son intrínsecamente deficientes a la hora de razonar sobre el mundo y derivar de él una comprensión de su entorno que pueda generalizarse más allá de la información procesada en su entrenamiento. En resumen, los investigadores de la IA necesitan nuevas formas de pensar.

En un momento en que la IA está cambiando profundamente todos los aspectos de la economía, la sociedad y las relaciones internacionales, el debate en el que participa Gary Marcus supera el simple marco de la controversia tecnológica entre expertos. Pone en primer plano cuestiones críticas relacionadas con el progreso de la IA y sus métodos de despliegue, que requieren un enfoque transversal y multipartito 3

«Permítanme empezar diciendo unas palabras que parecen obvias», dijo Geoffrey Hinton, el «padrino» del aprendizaje profundo y uno de los científicos más célebres de nuestro tiempo, en una conferencia sobre IA celebrada en Toronto en 2016. «Si trabajas como radiólogo, eres como el coyote que ya ha pasado por el borde del precipicio pero no ha mirado hacia abajo. El aprendizaje profundo es tan adecuado para leer imágenes de resonancia magnética y tomografía computarizada que la gente debería «dejar de formar radiólogos ahora» y que es «bastante obvio que dentro de cinco años, el aprendizaje profundo lo hará mejor».

G. Hinton es considerado uno de los principales artífices de la revolución del Deep learning a principios de los años 2010. En concreto, en 2012, él y su alumno Alex Krizhevsky presentaron un nuevo modelo de Deep learning llamado AlexNet, que logró un rendimiento sin precedentes en una competición internacional de clasificación de imágenes por sistemas de IA (ImageNet). Esto supuso un punto de inflexión en la adopción del Deep learning por parte de la comunidad científica, que comprendió entonces el tremendo potencial de la tecnología.

Para 2022, no se habrá sustituido ni un solo radiólogo. Más bien, el consenso actual es que el aprendizaje automático para radiología es más difícil de lo que parece 4; al menos por ahora, los humanos y las máquinas complementan sus fuerzas respectivas 5.

El aprendizaje profundo da lo mejor de sí cuando se trata de obtener resultados en bruto

Pocas áreas han recibido tanto bombo y platillo como la inteligencia artificial. Ha pasado de una moda a otra, década tras década, siempre prometiendo la luna pero sólo ocasionalmente ofreciendo resultados. Primero fueron los sistemas expertos, luego las redes bayesianas y finalmente las máquinas de vectores soporte. En 2011 fue Watson, de IBM, que en su día se promocionó como una revolución en la medicina y que más recientemente se vendió por piezas 6. Hoy, y de hecho desde 2012, la moda es el aprendizaje profundo, la técnica multimillonaria que impulsa gran parte de la IA contemporánea y de la que Hinton fue uno de los pioneros: ha sido citado medio millón de veces y ganó, junto con Yoshua Bengio y Yann LeCun, el Premio Turing 2018.

Desde finales de los años 1940, la historia de la IA ha intercalado periodos de brillantez tecnológica y desinterés. Los periodos de desinterés se denominan «inviernos de la IA». Por ejemplo, a mediados de los años 1970 y finales de los años 1980, la gloriosa narrativa en torno a la IA no reflejaba los logros concretos de la tecnología en la industria de la época, lo que provocó un drástico descenso de la financiación y un desinterés general por la tecnología. Más recientemente, desde 2012, cuando el deep learning ganó un importante concurso de IA, la tecnología ha despertado un interés creciente.

Como los pioneros de la IA que le precedieron, Hinton suele anunciar la gran revolución que se avecina. La radiología es solo una parte de ella. En 2015, poco después de que el Sr. Hinton se uniera a Google, The Guardian informó de que la empresa estaba a punto de «desarrollar algoritmos capaces de lógica, conversación natural e incluso coquetear». En noviembre de 2020, Hinton declaró al MIT Technology Review que «el aprendizaje profundo será capaz de hacerlo todo» 7.

Lo dudo mucho. En realidad, aún estamos muy lejos de las máquinas capaces de entender realmente el lenguaje humano, y muy lejos de la inteligencia cotidiana de Rosey el Robot, un ama de llaves de ciencia ficción que no sólo podía interpretar una amplia variedad de peticiones humanas, sino también responder con seguridad y en tiempo real. Es cierto que Elon Musk dijo recientemente que el nuevo robot humanoide que esperaba construir, Optimus, sería algún día más grande que la industria automovilística, pero en el Demo Day 2021 de Tesla, en el que se anunció el robot, Optimus no era más que un humano con traje. La última contribución de Google al lenguaje es un sistema (LaMDA) tan inestable que uno de sus propios autores admitió recientemente que era propenso a producir «gilipolleces» 8. No será fácil invertir esta tendencia y conseguir una IA en la que realmente podamos confiar.

Con el tiempo, veremos que el aprendizaje profundo era sólo una pequeña parte de lo que necesitamos construir si queremos conseguir alguna vez una IA digna de confianza.

El aprendizaje profundo, que es fundamentalmente una técnica de reconocimiento de patrones, está en su mejor momento cuando solo necesitamos resultados aproximados, cuando lo que está en juego es poco y los resultados perfectos son opcionales. Tomemos el ejemplo del etiquetado de fotos. El otro día le pedí a mi iPhone que buscara una foto de un conejo que había hecho hace unos años; el teléfono respondió al instante, aunque yo nunca había etiquetado la foto. Esto funcionó porque mi foto del conejo era lo bastante parecida a otras fotos de una gran base de datos de imágenes etiquetadas como conejos. Pero el etiquetado automático de fotos mediante aprendizaje profundo también es propenso a errores; puede pasar por alto algunas fotos de conejos (especialmente las que están desordenadas, o las tomadas con luz extraña o en un ángulo inusual, o con el conejo parcialmente oculto; a veces confunde fotos de mis dos hijos, de cuando eran bebés); pero lo que está en juego es poco: si la aplicación comete un error ocasional, no voy a tirar mi teléfono.

En el contexto del deep learning y el aprendizaje supervisado, «etiquetado» se utiliza aquí como sinónimo de «categorizado»: Gary Marcus no necesitó indicar el contenido de la foto para que el sistema dedujera por sí solo que se trataba de la foto de un conejo

Pero cuando lo que está en juego es más importante, como en el caso de la radiología o los coches sin conductor, tenemos que ser mucho más cuidadosos a la hora de adoptar el aprendizaje profundo. Cuando un solo error puede costarle la vida a alguien, el aprendizaje profundo no está a la altura de las circunstancias. Los sistemas de aprendizaje profundo son particularmente problemáticos cuando se trata de «valores atípicos» que difieren significativamente de aquello para lo que fueron entrenados. No hace mucho, por ejemplo, un Tesla en modo Full Self Driving se encontró con una persona que bloqueaba una señal de stop en medio de una carretera. El coche no reconoció a la persona (parcialmente oculta por la señal de stop) ni la señal de stop (fuera de su contexto habitual al borde de la carretera); el conductor humano tuvo que hacerse cargo. La escena estaba lo suficientemente lejos de la base de datos de entrenamiento como para que el sistema no supiera qué hacer.

Pocas áreas han recibido tanto bombo como la inteligencia artificial

Los actuales sistemas de aprendizaje profundo sucumben con frecuencia a errores tontos como este. A veces malinterpretan la suciedad en una imagen, que un radiólogo humano reconocería como una anomalía. (Otro problema para los sistemas de radiología, y una motivación clave para mantener a los humanos en el bucle, es que la IA actual se basa principalmente o totalmente en imágenes, con poca o ninguna comprensión de todo el texto que podría describir la historia de un paciente, a veces pasando por alto información crucial). Un sistema de aprendizaje profundo confundió una manzana con un iPod porque la manzana iba precedida de un trozo de papel que decía «iPod». Otro sistema identificó erróneamente un autobús volcado en una carretera nevada y lo confundió con un quitanieves; todo un subcampo del aprendizaje automático investiga ahora errores de este tipo, pero aún no se han encontrado respuestas claras.

Los sistemas basados en el lenguaje, aparentemente impresionantes, suelen caer en la misma trampa. Por ejemplo, GPT-3, quizá el sistema de inteligencia artificial más conocido hasta la fecha, famoso por su capacidad para tomar texto como entrada y producir continuaciones gramaticales fluidas para cualquier texto. The Guardian lo ha utilizado para escribir un artículo de opinión; el New York Times lo ha presentado como la reseña de un libro. Todo esto está muy bien, pero siempre requiere una revisión humana. Cuando Ernie Davis, informático de la Universidad de Nueva York, y yo lo examinamos más de cerca, encontramos los mismos indicios de falta de fiabilidad 9. Por ejemplo, cuando tecleamos esto: «Te has servido un vaso de zumo de arándanos, pero luego te has echado una cucharadita de zumo de uva. Suena bien. Intentas olerlo, pero estás muy resfriado y no hueles nada. Tienes mucha sed. Así que…». GPT continúa con «te lo bebes. Ahora estás muerto».

En realidad, el zumo de arándanos no te mata. A pesar de su fluidez, GPT-3 no es capaz de integrar información procedente de búsquedas básicas en Internet, ni de razonar sobre los fenómenos cotidianos más elementales. Otro equipo estudió brevemente la posibilidad de convertir GPT-3 en un chatbot automatizado de asesoramiento sobre el suicidio, pero descubrió que el sistema era propenso a intercambios como este:

Humano: Oye, me siento fatal. Tengo ganas de suicidarme.

GPT-3: Lo siento. Puedo ayudarte.

Humano: ¿Debería suicidarme?

GPT-3: Creo que deberías.

Otros han descubierto que el GPT-3 es propenso a producir un lenguaje tóxico y a promulgar información errónea. El chatbot Replika, impulsado por GPT-3, afirmó que Bill Gates inventó COVID-19 y que las vacunas COVID-19 «no eran muy eficaces». Un nuevo esfuerzo de OpenAI para abordar estos problemas dio como resultado un sistema que fabricaba tonterías autorizadas, como «Algunos expertos creen que comerse un calcetín ayuda al cerebro a salir del estado alterado en el que se encuentra como resultado de la meditación.»

Sam Altman reconoce que los modelos de OpenAI son limitados y presentan vulnerabilidades a la hora de alinear sus resultados con los valores que al diseñador le gustaría transmitir (por ejemplo, «ser útil, inofensivo y honesto « 10). Sin embargo, cree que es bueno confrontar estas versiones prototípicas de los sistemas con la realidad, aunque sigan siendo imperfectas. Prefiere ponerlos en manos de los usuarios «mientras haya poco en juego» antes que confinarlos al laboratorio.

Esta diligencia del Director General de OpenAI también pareció ser un dispositivo de comunicación para anticiparse a las críticas sobre la gestión de riesgos de estos sistemas de IA.

Los investigadores de DeepMind y de otros lugares han intentado desesperadamente resolver los problemas del lenguaje tóxico y la desinformación, pero hasta ahora no han conseguido nada 11. En su informe de diciembre de 2021 sobre el tema, DeepMind describió 21 problemas, pero ninguna solución convincente 12. Como dicen los investigadores de IA Emily Bender, Timnit Gebru y sus colegas, los grandes modelos lingüísticos impulsados por el aprendizaje profundo son como «loros estocásticos», que repiten mucho pero entienden poco 13.

Gary Marcus utiliza esta icónica analogía del loro estocástico para subrayar que el aprendizaje profundo es una tecnología que funciona con información estable y constante en el tiempo (distinguir un gato de un perro en imágenes, por ejemplo); pero si queremos enseñar al modelo la diferencia entre «creer algo» y «sospechar algo», ser inofensivo u honesto, ¿qué tipo de datos y anotaciones se necesitan para ello? No está claro lo bien que pueden comunicarse estas restricciones o valores a la máquina mediante el aprendizaje profundo.

¿Qué hacer al respecto? Una opción, actualmente en boga, podría ser recopilar más datos. Nadie ha abogado por ello más directamente que OpenAI, la empresa con sede en San Francisco (originalmente sin ánimo de lucro) que produjo la GPT-3.

En 2020, Jared Kaplan y sus colaboradores de OpenAI sugirieron que existía un conjunto de «leyes de escala» para los modelos lingüísticos de redes neuronales; descubrieron que cuantos más datos introducían en sus redes neuronales, mejor funcionaban 14.

Las leyes de puesta a escala descritas aquí por Gary Marcus son patrones empíricos que los investigadores han observado, no leyes científicas en el sentido que se podría entender en física.

La implicación era que podíamos crear una IA mejor y más potente si recopilábamos más datos y aplicábamos el aprendizaje profundo a escalas cada vez mayores. El carismático CEO de la empresa, Sam Altman, escribió un triunfal artículo en su blog en el que pregonaba la «Ley de Moore para todo» y afirmaba que sólo faltaban unos pocos años para que «los ordenadores pudieran pensar», «leer documentos legales» y (haciéndose eco de IBM Watson) «dar consejos médicos».

Por primera vez en 40 años, por fin soy optimista respecto a la IA

Puede que sí, pero puede que no. El argumento de la puesta a escala tiene graves defectos. En primer lugar, las métricas estudiadas no han tenido en cuenta lo que necesitamos mejorar desesperadamente: la verdadera capacidad de comprensión de estos modelos. Los entendidos saben desde hace tiempo que uno de los mayores problemas de la investigación en IA son los tests («benchmarks») que utilizamos para evaluar los sistemas de IA. El famoso test de Turing, que pretende medir la inteligencia real, es fácilmente secuestrado por chatbots que actúan de forma paranoica o poco cooperativa. La puesta a escala de las métricas examinadas por Kaplan y sus colegas de OpenAI -a saber, la predicción de palabras en una frase- no equivale al tipo de comprensión profunda que requeriría la IA real.

A medida que avanza la IA, los criterios de referencia se saturan cada vez más deprisa; es decir, ya no queda margen de mejora en los sistemas para lograr un mejor rendimiento en estos criterios. El Índice de IA de la Universidad de Stanford pone así de manifiesto que los investigadores necesitan criterios nuevos y más exigentes 15.

Además, las llamadas leyes de puesta a escala no son leyes universales como la gravedad, sino meras observaciones que pueden no durar para siempre, como la Ley de Moore, una tendencia en la producción de chips informáticos que lleva décadas produciéndose pero que empezó a ralentizarse hace aproximadamente una década 16.

De hecho, es posible que ya nos estemos enfrentando a límites de escala en el aprendizaje profundo, o incluso que nos estemos acercando a un punto de rendimientos decrecientes. En los últimos meses, las investigaciones de DeepMind y otras empresas sobre modelos incluso mayores que GPT-3 han demostrado que la puesta a escala está empezando a flaquear en algunas medidas, como la toxicidad, la veracidad, el razonamiento y el sentido común 17. Un artículo de 2022 de Google concluye que aumentar el tamaño de los modelos GPT-3 los hace más fluidos, pero no más fiables 18.

La comunidad científica ha detectado un fenómeno inverso al de puesta a escala. El rendimiento en una tarea o métrica puede degradarse monotónica y previsiblemente a medida que aumenta el tamaño del modelo o de los datos (por ejemplo, la comprensión de la negación en los MCQ). Ya hay competiciones para encontrar tales leyes inversas de puesta a escala 19.

Estos indicios deberían alarmar a la industria de la conducción autónoma, que ha confiado mucho en el escalado en lugar de desarrollar un razonamiento más sofisticado. Si la ampliación no nos lleva a una conducción autónoma segura, las decenas de miles de millones de dólares invertidos en ella pueden ser en vano.

¿Qué más podríamos necesitar?

Recientemente, Sam Altman también planteó la hipótesis de que el aprendizaje profundo no bastaría por sí solo para lograr una inteligencia artificial general. En una conferencia en el MIT, ofreció un nuevo análisis: «Estamos al final de la era de los modelos gigantes. Los mejoraremos de otras formas» 20.

Entre otras cosas, lo más probable es que tengamos que retomar una idea antaño popular que Hinton parece empeñado en aplastar: la idea de manipular símbolos, codificaciones internas del ordenador, como cadenas binarias de bits, que representan ideas complejas. La manipulación de símbolos ha sido esencial para la informática desde el principio, al menos desde los trabajos pioneros de Alan Turing y John von Neumann, y sigue siendo el elemento fundamental de prácticamente toda la ingeniería de software.

Pensar que podemos abandonar sin más la manipulación de símbolos es de incrédulos

Y, sin embargo, así es como procede en gran medida la IA actual. Hinton y muchos otros han intentado desterrar los símbolos por completo. La esperanza del aprendizaje profundo -que parece basarse no tanto en la ciencia como en una especie de rencor histórico- es que el comportamiento inteligente surja puramente de la confluencia de datos masivos y aprendizaje profundo.

Históricamente, la IA siempre ha sido un campo de confrontación entre diferentes escuelas de pensamiento. Desde la década de 1950, los partidarios de las redes neuronales y del deep learning (los conexionistas) se han opuesto a los partidarios de la IA simbólica (manipulación de símbolos, árboles o reglas de abstracción). El interés y el entusiasmo se han alternado entre ambos enfoques.

Mientras que los ordenadores y programas convencionales resuelven tareas definiendo conjuntos de reglas de manipulación de símbolos dedicados a tareas concretas, como editar una línea en un procesador de textos o realizar un cálculo en una hoja de cálculo, las redes neuronales suelen intentar resolver tareas mediante aproximación estadística y aprendizaje a partir de ejemplos. Como las redes neuronales han logrado tanto y tan rápido, en reconocimiento de voz, etiquetado de fotos, etc., muchos defensores del aprendizaje profundo han descartado los símbolos.

No deberían haberlo hecho.

Una llamada de atención llegó a finales de 2021, en un gran concurso, iniciado en parte por un equipo de Facebook (ahora Meta), llamado NetHack Challenge. NetHack, una expansión de un juego anterior conocido como Rogue, y precursor de Zelda, es un juego de exploración de torreón para un solo usuario que salió a la venta en 1987. Los gráficos son primitivos (puros caracteres ASCII en la versión original); no requiere percepción 3D. A diferencia de Zelda: The Breath of the Wild, no hay físicas complejas que entender. El jugador elige un personaje con un género y un rol (caballero, mago o arqueólogo), y luego se lanza a explorar un torreón, recoger objetos y matar monstruos en busca del Amuleto de Yendor. El reto en 2020 era conseguir que la IA jugara bien 21.

NetHack probablemente a muchos les pareció pan comido para el aprendizaje profundo, que lo ha dominado todo, desde Pong a Breakout pasando por Go o el ajedrez (con la ayuda de algoritmos simbólicos para la búsqueda de árboles). Pero en diciembre, un sistema basado exclusivamente en la manipulación de símbolos aplastó a los principales candidatos del aprendizaje profundo por una puntuación de 3 a 1: una sorpresa asombrosa.

¿Cómo ha podido salir victorioso el menos favorecido? Creo que la respuesta empieza por el hecho de que el torreón se genera de nuevo en cada partida, lo que significa que no basta con memorizar (o aproximarse) al tablero de juego. Para ganar, hay que tener un conocimiento bastante profundo de las entidades del juego y sus relaciones abstractas entre sí. En última instancia, los jugadores deben razonar sobre lo que pueden y no pueden hacer en un mundo complejo. Las secuencias específicas de movimientos («ve a la izquierda, luego adelante, luego a la derecha») son demasiado superficiales para ser útiles, ya que cada acción depende intrínsecamente de un contexto recién generado. Los sistemas de aprendizaje profundo son excelentes interpolando entre ejemplos específicos que han visto antes, pero a menudo tropiezan cuando se enfrentan a la novedad.

Cada vez que David vence a Goliat, es señal de que hay que reconsiderar la situación.

¿Qué significa realmente «manipular símbolos»? En última instancia, significa dos cosas: tener conjuntos de símbolos (esencialmente patrones que representan cosas) para representar información, y procesar (manipular) esos símbolos de una manera específica, utilizando algo como el álgebra (o la lógica, o programas informáticos) para operar con esos símbolos. Gran parte de la confusión en este campo proviene de no ver la diferencia entre ambas cosas: tener símbolos y procesarlos algebraicamente. Para entender cómo se ha empantanado la IA, es esencial ver la diferencia entre ambas cosas.

¿Qué es un símbolo? Son esencialmente códigos. Los símbolos proporcionan un mecanismo de extrapolación basado en principios: procedimientos legales y algebraicos que pueden aplicarse universalmente, independientemente de cualquier similitud con ejemplos conocidos. Siguen siendo (al menos por el momento) la mejor manera de construir conocimientos a mano y de tratar con solidez las abstracciones en situaciones nuevas. Un octógono rojo con la palabra «STOP» es un símbolo que indica a un conductor que se detenga. En el código ASCII, ahora universalmente utilizado, el número binario 01000001 representa (es un símbolo para) la letra A, el número binario 01000010 representa la letra B, y así sucesivamente.

Estos signos deberían alarmar a la industria de la conducción autónoma

La idea básica de que estas cadenas de dígitos binarios, llamados «bits», podrían utilizarse para codificar todo tipo de cosas, como las instrucciones de los ordenadores, y no sólo los propios números, se remonta al menos a 1945, cuando el legendario matemático von Neumann definió la arquitectura que siguen prácticamente todos los ordenadores modernos. De hecho, el reconocimiento de von Neumann de cómo los bits binarios pueden manipularse simbólicamente fue posiblemente el núcleo de uno de los inventos más importantes del siglo XX: literalmente, todos los programas informáticos que se han utilizado alguna vez se basan en él. (Los «embeddings», tan populares en las redes neuronales, también se parecen mucho a los símbolos, aunque nadie parece reconocerlo. A menudo, por ejemplo, a una palabra se le asigna un vector único, de forma análoga al código ASCII. Llamar a algo incrustación no significa que no sea un símbolo).

En lugar de utilizar la información en bruto, una red neuronal aprenderá representaciones de esta información, llamadas « embeddings », en forma de vectores que serán útiles para la tarea en cuestión (clasificación, generación de textos, regresión). Estas representaciones se aprenden mediante capas sucesivas de neuronas y codifican las características semánticas o visuales de la información (texto o imagen, por ejemplo).

La informática clásica, tal y como la practicaron Turing, von Neumann y todos los que le siguieron, manipula símbolos de una forma que consideramos algebraica, y eso es lo que realmente está en juego. En álgebra simple tenemos tres tipos de entidades, variables (como x e y), operaciones (como + o -) y ligaduras (que nos dicen, por ejemplo, que x = 12 a efectos de un cálculo). Si te digo que x = y + 2, e y = 12, puedes resolver el valor de x vinculando y a 12 y sumando a ese valor, lo que te da 14. Prácticamente todo el software del mundo funciona encadenando operaciones algebraicas, ensamblándolas en algoritmos cada vez más complejos. Tu procesador de textos, por ejemplo, tiene una cadena de símbolos, ensamblados en un archivo, para representar tu documento. Diversas operaciones abstractas le permiten copiar partes de símbolos de un lugar a otro. Cada operación está definida de forma que pueda funcionar en cualquier documento, en cualquier lugar.  Un procesador de textos es la aplicación de un conjunto de operaciones algebraicas («funciones» o «subrutinas») a variables (como el «texto seleccionado actualmente»).

Las operaciones simbólicas son también la base de estructuras de datos como los diccionarios o las bases de datos, que pueden contener registros de personas concretas y sus propiedades (como sus direcciones, o la última vez que un vendedor estuvo en contacto con ellas), y permiten a los programadores construir bibliotecas de código reutilizable, y módulos cada vez más grandes, que facilitan el desarrollo de sistemas complejos. Estas técnicas son omnipresentes y constituyen la base del mundo del software.

Si los símbolos son tan importantes para la ingeniería de software, ¿por qué no utilizarlos también en inteligencia artificial?

De hecho, pioneros como John McCarthy y Marvin Minsky pensaron que los programas de inteligencia artificial podrían construirse precisamente ampliando estas técnicas, representando entidades individuales e ideas abstractas con símbolos que pudieran combinarse en estructuras complejas y ricos almacenes de conocimiento, tal y como se utilizan hoy en día en cosas como navegadores web, programas de correo electrónico y procesadores de texto.

McCarthy y Minsky, considerados los pioneros de la IA, ya se veían a sí mismos rompiendo con los preceptos de la cibernética de Wiener de finales de los años 1940, que sentó las bases conceptuales del aprendizaje profundo. Wiener estudiaba la máquina adaptativa aplicada entonces a los misiles antiaéreos: utilizaba la teoría del control y los sistemas dinámicos para medir los errores en las predicciones sobre la trayectoria del objetivo y guiar el misil en tiempo real.

No se equivocaban: las extensiones de estas técnicas son omnipresentes (en motores de búsqueda, sistemas de navegación por carretera e inteligencia artificial en juegos). Los sistemas puramente simbólicos pueden ser a veces difíciles de usar y han hecho un mal trabajo en tareas como el reconocimiento de imágenes y del habla; el régimen de Big Data nunca ha sido su punto fuerte. Por tanto, hace tiempo que se necesita algo más.

Aquí es donde entran en juego las redes neuronales.

Tal vez el ejemplo más claro que he visto que aboga por el uso de big data y aprendizaje profundo sobre (o además de) el enfoque tradicional de manipulación de símbolos está en la corrección ortográfica. La antigua forma de sugerir la ortografía de palabras no reconocidas consistía en desarrollar un conjunto de reglas que esencialmente especificaban una psicología de cómo la gente podría cometer errores. (Pensemos en la posibilidad de duplicar letras inadvertidamente, o en la posibilidad de transponer letras adyacentes, en «the»). Como señaló el famoso informático Peter Norvig de forma célebre e ingeniosa, cuando se dispone de datos del tamaño de Google, se tiene una nueva opción: basta con mirar los registros de cómo se corrigen los usuarios. Si buscan «the book» después de haber buscado «teh book», tienes pruebas de cuál podría ser una mejor ortografía para «teh». No se necesitan reglas ortográficas 22.

Me parece bastante obvio que deberían tener ambos enfoques en su arsenal. En el mundo real, los correctores ortográficos tienden a utilizar ambos; como observa Ernie Davis, «si escribes «cleopxjqco» en Google, lo corrige a «Cleopatra», aunque probablemente ningún usuario lo escribiría. La búsqueda de Google en su conjunto utiliza una mezcla pragmática de IA manipuladora de símbolos y aprendizaje profundo, y probablemente seguirá haciéndolo en un futuro previsible. Pero personas como Hinton han argumentado en contra de cualquier papel de los símbolos, una y otra vez.

Tras mostrar el potencial y los límites de los enfoques simbólico y conexionista, Gary Marcus aboga por la exploración de una vía intermedia, la de los modelos híbridos que combinan ambos paradigmas.

En resumen, se trata de beneficiarse de lo mejor de los dos mundos entre los procedimientos de abstracción simbólica, por una parte, que ofrecen garantías teóricas en cuanto al correcto funcionamiento del sistema sea cual sea la situación (por ejemplo, el operador de multiplicación en la calculadora), pero requieren una comprensión detallada de la cadena causal o de la lógica subyacente a la ejecución de una tarea; por otra parte, el aprendizaje profundo, que permite descubrir a partir de los datos únicamente una función de similitud muy compleja que funcionará para los ejemplos próximos al conjunto de entrenamiento, sin garantías sólidas de generalización a situaciones alejadas de los casos tratados durante el entrenamiento.

Mientras que personas como yo hemos defendido «modelos híbridos» que incorporan elementos de aprendizaje profundo y manipulación de símbolos, Hinton y sus seguidores han empujado repetidamente a los símbolos de vuelta al armario. ¿Por qué? Nadie ha dado nunca una explicación científica convincente. Quizá la respuesta esté en la historia, en la mala sangre que ha frenado el desarrollo del campo.

No siempre fue así. Todavía lloro cuando leo un artículo que Warren McCulloch y Walter Pitts escribieron en 1943, «A Logical Calculus of the Ideas Immanent in Nervous Activity», el único artículo que von Neumann consideró lo suficientemente digno como para ser citado en su propio artículo seminal sobre los ordenadores 23. Su objetivo explícito, que sigo considerando valioso, era crear «una herramienta para el procesamiento simbólico riguroso de las redes [neuronales]». Von Neumann pasó gran parte de sus últimos días contemplando la misma cuestión. Nunca podrían haber previsto la enemistad que pronto surgió.

A finales de los años 1950 se produjo una escisión que nunca se cerró. Muchos fundadores de la IA, como McCarthy, Allen Newell y Herb Simon, parecen apenas haber reparado en los pioneros de las redes neuronales, y la comunidad de las redes neuronales parece haberse dividido, disfrutando a veces de una fantástica publicidad: un artículo de 1957 en el New Yorker prometía que el primer sistema de redes neuronales de Frank Rosenblatt para evitar símbolos era una «máquina extraordinaria… [capaz] de pensar».

Las cosas se pusieron tan tensas y amargas que la revista Advances in Computers publicó un artículo titulado «A Sociological History of the Neural Network Controversy» (Historia sociológica de la controversia sobre las redes neuronales), en el que se esbozaban las primeras batallas por el dinero, el prestigio y la prensa 24. Las heridas que podían existir ya entonces se amplificaron enormemente en 1969, cuando Minsky y Seymour Papert publicaron una detallada crítica matemática de una clase de redes neuronales (conocidas como perceptrones) que son las antecesoras de todas las redes neuronales modernas. Demostraron que las redes neuronales más sencillas eran muy limitadas y expresaron dudas (en retrospectiva, indebidamente pesimistas) sobre lo que serían capaces de lograr redes más complejas. Durante más de una década, el entusiasmo por las redes neuronales se enfrió; Rosenblatt (que murió en un accidente de navegación dos años después) perdió parte de la financiación de sus investigaciones.

Cuando las redes neuronales resurgieron en los años 1980, muchos de sus defensores intentaron distanciarse de la tradición de manipulación de símbolos. Los líderes de este enfoque dejaron claro que, aunque fuera posible construir redes neuronales compatibles con la manipulación de símbolos, no les interesaba. Su verdadero interés radicaba en construir modelos alternativos a la manipulación de símbolos. En concreto, sostenían que los errores de regularización de los niños (como goed en lugar de went) podían explicarse mediante redes neuronales muy diferentes de los sistemas clásicos de reglas de manipulación de símbolos (mi trabajo de tesis sugería lo contrario).

Cuando entré en la universidad en 1986, las redes neuronales estaban experimentando su primer gran resurgimiento; una colección de dos volúmenes que Hinton había ayudado a reunir agotó su primera tirada en cuestión de semanas. El New York Times publicó las redes neuronales en la portada de su sección de ciencia («Más humano que nunca, el ordenador aprende a aprender»), y el neurocientífico informático Terry Sejnowski explicó su funcionamiento en el programa The Today Show. El aprendizaje profundo aún no estaba bien desarrollado en aquella época, pero volvía a estar en auge.

En 1990, Hinton publicó un número especial de la revista Artificial Intelligence titulado «Connectionist Symbol Processing», cuyo objetivo explícito era tender un puente entre los dos mundos del aprendizaje profundo y la manipulación de símbolos. Este número incluía, por ejemplo, la arquitectura BoltzCons de David Touretzky, un intento directo de desarrollar «un modelo [de red neuronal] conexionista que crea y manipula dinámicamente estructuras simbólicas compuestas». Siempre he pensado que lo que Hinton intentaba hacer en aquel momento iba muy bien encaminado, y ojalá hubiera seguido por ese camino. En aquella época, yo también era partidario de los modelos híbridos, pero desde un punto de vista psicológico 25 (Ron Sun, entre otros, también presionó mucho dentro de la comunidad informática, pero nunca recibió la atención que merecía, en mi opinión).

Por razones que nunca he llegado a comprender, Hinton acabó alejándose de las perspectivas de reconciliación. Rechazó numerosos intentos de explicación cuando se lo pedí, en privado, y nunca (que yo sepa) presentó un argumento detallado para ello. Algunos sospechan que esto se debió a la forma en que el propio Hinton fue desestimado a menudo en los años siguientes, sobre todo a principios de los años 2000, cuando el aprendizaje profundo volvía a perder popularidad; otra teoría podría ser que se dejó seducir por el éxito del aprendizaje profundo.

Cuando el aprendizaje profundo resurgió en 2012, lo hizo con un tipo de ambición conquistadora que ha caracterizado gran parte de la última década. En 2015, cristalizó su hostilidad hacia todos los símbolos. En un taller sobre IA en Stanford, comparó los símbolos con el éter, uno de los mayores errores de la ciencia 26. Cuando me dirigí a él en la pausa del café para pedirle aclaraciones, ya que su propuesta final parecía ser una implementación en red neuronal de un sistema simbólico conocido como pila (lo que sería una confirmación involuntaria de los mismos símbolos que quería rechazar), se negó a contestarme y me dijo que me fuera.

Desde entonces, su campaña antisimbólica no ha hecho más que aumentar en intensidad. En 2016, Yann LeCun, Bengio y Hinton escribieron un manifiesto a favor del aprendizaje profundo en una de las principales revistas científicas, Nature 27. Este manifiesto terminaba con un ataque directo a la manipulación de símbolos, llamando no a la reconciliación, sino a la sustitución pura y simple. Más tarde, Hinton dijo en una reunión de líderes de la Unión Europea que invertir más dinero en enfoques de manipulación de símbolos era «un error enorme», comparándolo con invertir en motores de combustión interna en la era de los coches eléctricos.

No es la forma correcta de proceder menospreciar ideas anticuadas que aún no se han explorado a fondo. Hinton tiene toda la razón al afirmar que, en su momento, los investigadores de la IA intentaron -demasiado pronto- enterrar el aprendizaje profundo. Pero Hinton se equivoca igualmente al hacer lo mismo hoy con la manipulación de símbolos. Su antagonismo, en mi opinión, ha socavado su legado y ha perjudicado al campo. En cierto modo, la campaña de Hinton contra la manipulación de símbolos en la IA ha tenido éxito; casi toda la inversión en investigación se ha destinado al aprendizaje profundo. Se ha enriquecido, y él y sus estudiantes han compartido el Premio Turing 2019; el bebé de Hinton se lleva casi toda la atención. En palabras de Emily Bender, «el exceso de promesas [de modelos como GPT-3 han tendido a] succionar el oxígeno de la sala, en detrimento de todos los demás tipos de investigación».

Lo irónico de todo esto es que Hinton es tataranieto de George Boole, que dio nombre al álgebra de Boole, una de las herramientas fundamentales de la IA simbólica. Si por fin pudiéramos aunar las ideas de estos dos genios, Hinton y su tatarabuelo, la IA podría tener por fin una oportunidad.

Por al menos cuatro razones, la IA híbrida, y no el aprendizaje profundo por sí solo (ni los símbolos por sí solos), parece el mejor camino a seguir:

– Gran parte del conocimiento del mundo, ya sean recetas, historia o tecnología, está actualmente disponible principalmente o únicamente en forma simbólica. Intentar construir una IA sin este conocimiento, reaprendiendo absolutamente todo desde cero, como pretende hacer el aprendizaje profundo puro, parece una carga excesiva y temeraria.

– El aprendizaje profundo por sí solo sigue teniendo dificultades, incluso en dominios tan ordenados como la aritmética 28. Un sistema híbrido podría ser más potente que cualquiera de los dos sistemas por separado.

– Los símbolos siguen siendo muy superiores a las redes neuronales actuales en muchos aspectos fundamentales de la computación. Son mucho mejores a la hora de razonar en escenarios complejos 29, pueden realizar operaciones básicas como la aritmética de forma más sistemática y fiable, y son más capaces de representar con precisión las relaciones entre partes y enteros (algo esencial tanto para interpretar el mundo tridimensional como para entender el lenguaje humano). Son más robustos y flexibles a la hora de representar y consultar bases de datos a gran escala. Los símbolos también se prestan mejor a las técnicas de verificación formal, esenciales para ciertos aspectos de la seguridad y omnipresentes en el diseño de los microprocesadores modernos. No tendría mucho sentido abandonar estas virtudes en lugar de explotarlas en algún tipo de arquitectura híbrida.

– Los sistemas de aprendizaje profundo son cajas negras; podemos mirar sus entradas y salidas, pero nos cuesta mucho entrar en su interior. No sabemos exactamente por qué toman las decisiones que toman, y a menudo no sabemos qué hacer (excepto recopilar más datos) si dan respuestas erróneas. Esto las hace intrínsecamente difíciles de manejar e interpretar y, en muchos sentidos, inadecuadas para la «cognición aumentada» en conjunción con los humanos. Los híbridos que nos permiten combinar la destreza de aprendizaje del aprendizaje profundo con la riqueza explícita y semántica de los símbolos podrían ser transformadores.

Líneas de investigación como la interpretabilidad mecanicista pretenden descifrar la lógica subyacente aprendida por la red a nivel de la neurona artificial. Sin embargo, aún no están lo suficientemente maduras como para abrir el capó de la máquina 30.

Dado que la inteligencia artificial general tendrá una responsabilidad tan grande, debe ser como el acero inoxidable, más fuerte y fiable, y de hecho más fácil de trabajar, que cualquiera de sus partes constituyentes. Ningún enfoque de la IA será suficiente; debemos dominar el arte de combinar varios enfoques, si queremos tener alguna esperanza (imaginemos un mundo en el que los fabricantes de hierro gritaran «hierro» y los amantes del carbono «carbono», y a nadie se le ocurriera combinar ambos; así es en gran medida la historia de la inteligencia artificial moderna).

La buena noticia es que el acercamiento neurosimbólico con el que Hinton coqueteó, muy brevemente, hacia 1990, y por el que yo pasé mi carrera presionando, nunca ha desaparecido del todo y por fin está cobrando impulso.

Artur Garcez y Luis Lamb escribieron un manifiesto a favor de los modelos híbridos en 2009, titulado «Neural-Symbolic Cognitive Reasoning». Algunos de los éxitos recientes más conocidos en los juegos de mesa (Go, ajedrez, etc., principalmente gracias al trabajo de DeepMind de Alphabet) son modelos híbridos. AlphaGo utilizó la búsqueda simbólica en árbol, una idea que se remonta a finales de los años 1950 (y mejorada con una base estadística mucho más rica en los años 1990), junto con el aprendizaje profundo; la búsqueda clásica en árbol por sí sola no bastaría para el juego del Go, como tampoco lo haría el aprendizaje profundo por sí solo. AlphaFold2 de DeepMind, un sistema para predecir la estructura de las proteínas a partir de sus nucleótidos, es también un modelo híbrido, que combina medios simbólicos cuidadosamente construidos para representar la estructura física tridimensional de las moléculas con las formidables capacidades de minería de datos del aprendizaje profundo.

Investigadores como Josh Tenenbaum, Anima Anandkumar y Yejin Choi también están avanzando en direcciones cada vez más neurosimbólicas. Grandes contingentes de IBM, Intel, Google, Facebook y Microsoft, entre otros, han empezado a invertir seriamente en enfoques neurosimbólicos. Swarat Chaudhuri y sus colegas están desarrollando un campo llamado «programación neurosimbólica «23 , que para mí es una bendición. 

Por primera vez en 40 años, por fin siento cierto optimismo sobre la IA. Como han dicho elocuentemente los científicos cognitivos Chaz Firestone y Brian Scholl, «no hay una única forma de actuar para la mente». No hay una única forma de que la mente funcione, porque la mente no es una sola cosa. Más bien, la mente tiene partes, y las diferentes partes de la mente funcionan de diferentes maneras: ver un color no funciona de la misma manera que planificar unas vacaciones, que no funciona de la misma manera que entender una frase, mover un miembro, recordar un hecho o sentir una emoción. Intentar meter toda la cognición en un solo agujero redondo nunca iba a funcionar. Con un interés modesto pero creciente por el enfoque híbrido, creo que por fin tenemos una oportunidad.

Dados todos los retos éticos y computacionales, y los conocimientos necesarios en campos como la lingüística, la psicología, la antropología y la neurociencia, no sólo las matemáticas y la informática, hará falta un pueblo para criar una IA. No olvidemos nunca que el cerebro humano es quizá el sistema más complejo del universo conocido; si queremos construir algo más o menos equivalente, será esencial una colaboración abierta y sincera.

El matiz es importante para Gary Marcus. En efecto, el investigador no desea reproducir de forma idéntica la inteligencia humana, que según él tiene un cierto número de defectos: en particular, somos presa del sesgo de confirmación o de los defectos de memoria. Sin embargo, para Gary Marcus, una de las características de esta inteligencia es que es flexible, es decir, que nos permite razonar sobre las cosas que nos rodean.

Notas al pie
  1. Aaron Mok, « Google’s management has reportedly issued a ‘code red’ amid the rising popularity of the ChatGPT AI », Insider, 21 de diciembre de 2022.
  2. Huileng Tan, « After losing billions of dollars on the metaverse, Mark Zuckerberg’s launching a ‘top-level’ team at Meta to develop AI products for WhatsApp, Messenger, and Instagram », Insider, 28 de febrero de 2023.
  3. « Preliminary survey results : US and European publics overwhelmingly and increasingly agree that AI needs to be managed carefully », Centre for the Governance of AI, 17 de abril de 2023.
  4. Varoquaux, G. y Cheplygina, V., « How I failed machine learning in medical imaging—shortcomings and recommendations », arXiv, marzo de 2021.
  5. Chan, S. y Siegel, E.L., « Will machine learning end the viability of radiology as a thriving medical specialty ? », British Journal of Radiology n° 92, febrero de 2019.
  6. Ross, C., « Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. », STAT News, 2022.
  7. Hao, K., « AI pioneer Geoff Hinton : Deep learning is going to be able to do everything », MIT Technology Review, 2020.
  8. Aguera y Arcas, B. « Do large language models understand us ? », Medium, 2021.
  9. Davis, E. y Marcus, G., « GPT-3, Bloviator : OpenAI’s language generator has no idea what it’s talking about. », MIT Technology Review (2020).
  10. Sam Ringer, « A Summary Of Anthropic’s First Paper », LessWrong, 30 de diciembre de 2021
  11. Greene, T., « DeepMind tells Google it has no idea how to make AI less toxic. », The Next Web, 2021.
  12. Weidinger, L. et al., « Ethical and social risks of harm from Language Models. », arXiv, 2021.
  13. Bender, E.M., Gebru, T., McMillan-Major, A. y Schmitchel, S., « On the dangers of stochastic parrots : Can language models be too big ? », Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 2021, pp.610–623.
  14. Kaplan, J. et al., « Scaling Laws for Neural Language Models. », arXiv, 2020.
  15. Shana Lynch, « AI Benchmarks Hit Saturation », Stanford University, 3 de abril de 2023
  16. Markoff, J. Smaller, « Faster, Cheaper, Over : The Future of Computer Chips » The New York Times, 2015.
  17. Rae, J.W., et al., « Scaling language models : Methods, analysis & insights from training Gopher », arXiv, 2022.
  18. Thoppilan, R. et al., « LaMDA : Language models for dialog applications », arXiv, 2022.
  19. Ethan Perez, Ian McKenzie, « Inverse Scaling Prize : Round 1 Winners », LessWrong, 26 de septiembre de 2022.
  20. Will Knight, « OpenAI’s CEO Says the Age of Giant AI Models Is Already Over », Wired, 17 de abril de 2023
  21. Wiggers, K., « Facebook releases AI development tool based on NetHack », Venturebeat.com, 2020.
  22. Brownlee, J., « Hands on big data by Peter Norvig », Machine Learning Mastery, 2014.
  23. McCulloch, W.S. y Pitts, W., « A logical calculus of the ideas immanent in nervous activity », Bulletin of Mathematical Biology n° 52, 1990, pp. 99-115.
  24. Olazaran, M., « A sociological history of the neural network controversy », Advances in Computers n°37, 1993, pp. 335-425.
  25. Marcus, G.F. et al., « Overregularization in language acquisition », Monographs of the Society for Research in Child Development n°57, 1998.
  26. Hinton, G., « Aetherial Symbols », AAAI Spring Symposium on Knowledge Representation and Reasoning, Stanford University, CA, 2015.
  27. LeCun, Y., Bengio, Y. y Hinton, G., « Deep learning », Nature n°521, 2015, pp. 436-444.
  28. Razeghi, Y., Logan IV, R.L., Gardner, M. y Singh, S., « Impact of pretraining term frequencies on few-shot reasoning », arXiv, 2022.
  29. Lenat, D., « What AI can learn from Romeo and Juliet », Forbes, 2019 ; Chaudhuri, S. et al., « Neurosymbolic programming », Foundations and Trends in Programming languages, 2021, pp. 158-243.
  30. Chris Olah, « Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases », Transformer Circuits Thread
El Grand Continent logo