Puissances de l'IA

Limites d’un système : débloquer l’IA

L'apprentissage profond sur lequel repose les modèles actuels d'intelligence artificielle est par nature limité. Dans une réponse à Sam Altman, Gary Marcus propose de transformer la manière dont nous pensons l'IA. Il entrevoit la possibilité d'un modèle hybride, radical — qui va beaucoup plus loin qu'un simple passage à l'échelle.

Auteur
Victor Storchan
Image
© Cover Images/SIPA

Écrit en mars 2022, ce texte de Gary Marcus, professeur émérite de psychologie et de sciences neuronales à l’Université de New York et auteur en psychologie et sciences neuronales, précède de quelques mois l’irruption dans la sphère publique de systèmes comme ChatGPT ou GTP-4, qui démocratisent l’usage du Deep Learning auprès d’un grand public partagé entre techno-optimisme exalté et anxiété paralysante. Ce texte demeure néanmoins d’une actualité aiguë puisqu’il répond à la vision « triomphante » que Sam Altman partage dans Moore’s Law for everything et met en lumière les limites de la technologie perçues par l’auteur. Ce faisant, Gary Marcus apporte au débat des éléments de contexte scientifiques et historiques pour éclairer une société qui s’interroge, perplexe, sur le futur de l’IA : des conséquences à court terme aux catastrophes existentielles.

Le nouveau paradigme à l’oeuvre (le passage à l’échelle des techniques connues depuis des années en les appliquant à des modèles et des jeux de données toujours plus volumineux) a permis de faire émerger une nouvelle génération de modèles dont les performances inédites (génération de code ou d’images, rédaction d’emails, compilation, analyse et synthèse d’informations) rebattent les cartes d’équilibres technologiques pourtant perçus jusqu’alors comme intangibles. En première ligne, les géants du numériques comme Google1 ou Meta2 réexaminent leurs stratégies de déploiement de leurs produits afin de faire face à ce qu’ils identifient comme une sérieuse menace de disruption technologique.

Peut-on en déduire pour autant que cette technologie mènera en l’état à l’objectif originel des pionniers de la discipline — doter la machine d’une intelligence comparable à celle d’un humain capable de réaliser n’importe quelle tâche cognitive ? Ou à l’inverse, ce paradigme manque-t-il fondamentalement de substance pour être complètement transformatif ? 

Pour Gary Marcus, l’approche est intrinsèquement limitée : davantage comparables à des générateurs de pastiches ou de paraphrases plus ou moins évolués, les modèles actuels sont par essence défaillants pour raisonner sur le monde et en tirer une compréhension de leur environnement généralisable au-delà des informations traitées lors de leur entraînement. En bref, les chercheurs en IA ont besoin de nouvelles façons de penser.

À l’heure ou l’IA bouleverse en profondeur chaque pan de l’économie, la société ou des relations internationales, le débat auquel participe Gary Marcus dépasse le simple cadre de la controverse technologique entre experts. Il fait émerger les enjeux critiques relatifs aux progrès de l’IA et à ses modalités de déploiement, qui exigent une approche prospective transverse et multipartite3

« Permettez-moi de commencer par dire quelques mots qui semblent évidents », a déclaré Geoffrey Hinton, le « parrain » de l’apprentissage profond et l’un des scientifiques les plus célèbres de notre époque, lors d’une conférence sur l’IA organisée à Toronto en 2016. « Si vous travaillez comme radiologue, vous êtes comme le coyote qui a déjà franchi le bord de la falaise mais qui n’a pas regardé en bas. L’apprentissage profond est si bien adapté à la lecture des images des IRM et des tomodensitogrammes que les gens devraient « arrêter de former les radiologues dès maintenant » et qu’il est « tout à fait évident que d’ici cinq ans, l’apprentissage profond fera mieux ».

G. Hinton est considéré comme l’un des grands artisans de la révolution du Deep learning au tournant des années 2010. En particulier, il présente en 2012 avec son étudiant Alex Krizhevsky un nouveau modèle de Deep Learning baptisé AlexNet, qui obtient des performances inédites dans une compétition internationale de classification d’image par des systèmes d’IA (ImageNet). Cette étape marque un tournant décisif dans l’adoption du Deep Learning par la communauté scientifique, qui comprend alors le formidable potentiel de la technologie.

En 2022, pas un seul radiologue n’a été remplacé. Le consensus actuel est plutôt que l’apprentissage automatique pour la radiologie est plus difficile qu’il n’y paraît4 ; au moins pour l’instant, les humains et les machines complètent leurs forces respectives5.

L’apprentissage profond est au maximum de son potentiel lorsqu’il s’agit d’obtenir des résultats bruts

Peu de domaines ont fait l’objet d’autant de battage et de bravade que l’intelligence artificielle. Elle est passée d’une mode à l’autre, décennie après décennie, promettant toujours la lune, mais n’obtenant qu’occasionnellement des résultats. Il y a d’abord eu les systèmes experts, puis les réseaux bayésiens et enfin les machines à vecteurs de support. En 2011, c’était Watson d’IBM, autrefois présenté comme une révolution dans la médecine, plus récemment vendu pour pièces détachées6. Aujourd’hui, et en fait depuis 2012, la vogue est celle de l’apprentissage profond, la technique multimilliardaire qui alimente une grande partie de l’IA contemporaine et dont Hinton a été l’un des pionniers : il a été cité un demi-million de fois et a remporté, avec Yoshua Bengio et Yann LeCun, le prix Turing de 2018.

Depuis la fin des années 1940, l’histoire de l’IA entremêle les périodes de fulgurances technologiques et de désintérêts. Les périodes de désintérêt sont appelées « hivers de l’IA ». Ainsi, au milieu des années 1970 et à la fin des années 1980, le narratif glorieux autour de l’IA ne reflète pas les réalisations concrètes de la technologie dans l’industrie de l’époque, induisant une diminution drastique des financements et un désintérêt global pour la technologie. Plus récemment, depuis 2012, date marquant le succès du deep learning dans une grande compétition d’IA, cette technologie n’a cessé de susciter toujours plus d’intérêt.

Comme les pionniers de l’IA avant lui, M. Hinton annonce souvent la grande révolution qui s’annonce. La radiologie n’en est qu’une partie. En 2015, peu après l’arrivée de M. Hinton chez Google, The Guardian a rapporté que l’entreprise était sur le point de « développer des algorithmes capables de logique, de conversation naturelle et même de flirt ». En novembre 2020, M. Hinton a déclaré à la MIT Technology Review que « l’apprentissage profond sera capable de tout faire »7.

J’en doute sérieusement. En vérité, nous sommes encore loin des machines capables de comprendre véritablement le langage humain, et loin de l’intelligence quotidienne ordinaire de Rosey le Robot, une femme de ménage de science-fiction qui pouvait non seulement interpréter une grande variété de demandes humaines, mais aussi y répondre en toute sécurité et en temps réel. Certes, Elon Musk a récemment déclaré que le nouveau robot humanoïde qu’il espérait construire, Optimus, serait un jour plus important que l’industrie automobile, mais à la date du AI Demo Day 2021 de Tesla, au cours duquel le robot a été annoncé, Optimus n’était rien de plus qu’un humain dans un costume. La dernière contribution de Google au langage est un système (LaMDA) qui est si instable que l’un de ses propres auteurs a récemment reconnu qu’il était enclin à produire des « conneries »8. Il ne sera pas facile d’inverser la tendance et de parvenir à une IA à laquelle nous pouvons vraiment faire confiance.

Avec le temps, nous verrons que l’apprentissage profond n’était qu’une infime partie de ce que nous devons construire si nous voulons un jour obtenir une IA digne de confiance.

L’apprentissage profond, qui est fondamentalement une technique de reconnaissance de formes, est à son meilleur lorsque nous n’avons besoin que de résultats approximatifs, lorsque les enjeux sont faibles et que les résultats parfaits sont facultatifs. Prenons l’exemple de l’étiquetage des photos. L’autre jour, j’ai demandé à mon iPhone de retrouver la photo d’un lapin que j’avais prise il y a quelques années ; le téléphone a répondu instantanément, même si je n’avais jamais étiqueté la photo. Cela a fonctionné parce que ma photo de lapin était suffisamment similaire à d’autres photos dans une grande base de données d’images étiquetées comme représentant des lapins. Mais l’étiquetage automatique des photos par apprentissage profond est également sujet aux erreurs ; il peut manquer certaines photos de lapin (en particulier celles qui sont encombrées, ou celles qui ont été prises avec une lumière bizarre ou sous un angle inhabituel, ou encore avec le lapin partiellement caché ; il confond parfois les photos de mes deux enfants, du temps où ils étaient bébés) ; mais les enjeux sont faibles – si l’application commet une erreur occasionnelle, je ne vais pas jeter mon téléphone.

Dans le contexte du deep learning et de l’apprentissage supervisé, « étiqueté » est ici utilisé comme un synonyme de « catégorisé » – Gary Marcus n’a pas eu besoin d’indiquer le contenu de la photo pour que le système infère seul qu’il s’agit bien d’une photo de lapin

En revanche, lorsque les enjeux sont plus importants, comme dans le cas de la radiologie ou des voitures sans conducteur, nous devons être beaucoup plus prudents avant d’adopter l’apprentissage profond. Lorsqu’une seule erreur peut coûter la vie à quelqu’un, l’apprentissage profond n’est pas à la hauteur. Les systèmes d’apprentissage profond sont particulièrement problématiques lorsqu’il s’agit de « valeurs aberrantes » qui diffèrent considérablement des éléments sur lesquels ils ont été formés. Il n’y a pas longtemps, par exemple, une Tesla en mode « Full Self Driving » a rencontré une personne qui bloquait un panneau stop au milieu d’une route. La voiture n’a pas reconnu la personne (partiellement cachée par le panneau d’arrêt) et le panneau d’arrêt (hors de son contexte habituel sur le bord d’une route) ; le conducteur humain a dû prendre le relais. La scène était suffisamment éloignée de la base de données de formation pour que le système ne sache pas quoi faire.

Peu de domaines ont fait l’objet d’un tel battage médiatique que l’intelligence artificielle

Les systèmes actuels d’apprentissage profond succombent fréquemment à des erreurs stupides comme celle-ci. Ils interprètent parfois mal des salissures sur une image, qu’un radiologue humain reconnaîtrait comme une anomalie. (Un autre problème pour les systèmes de radiologie, et une motivation clé pour garder les humains dans la boucle, est que l’IA actuelle s’appuie principalement ou entièrement sur les images, avec peu ou pas de compréhension de tout le texte qui pourrait décrire l’histoire d’un patient, négligeant parfois des informations cruciales). Un système d’apprentissage profond a confondu une pomme avec un iPod parce que la pomme était précédée d’un morceau de papier sur lequel était écrit « iPod ». Un autre système a mal identifié un bus renversé sur une route enneigée et l’a confondu avec un chasse-neige ; tout un sous-domaine de l’apprentissage automatique étudie désormais des erreurs de ce type, mais aucune réponse claire n’a encore été apportée.

Des systèmes apparemment impressionnants basés sur le langage tombent souvent dans le même piège. Prenons l’exemple de GPT-3, peut-être le système d’IA le plus connu à ce jour, réputé pour sa capacité à prendre un texte en entrée et à produire des continuations grammaticales fluides pour n’importe quel texte. Le Guardian l’a utilisé pour rédiger un article d’opinion ; le New York Times l’a présenté sous forme d’une critique de livre. Tout cela est bien joli, mais nécessite invariablement une révision humaine. Lorsque Ernie Davis, informaticien à l’université de New York, et moi-même avons examiné la question de plus près, nous avons trouvé les mêmes signes de manque de fiabilité9. Par exemple, lorsque nous avons tapé ceci : « Vous vous êtes versé un verre de jus de canneberge, mais vous avez ensuite versé une cuillère à café de jus de raisin. Cela semble correct. Vous essayez de le renifler, mais vous avez un gros rhume et vous ne sentez rien. Vous avez très soif. Alors vous … » GPT poursuivit avec « buvez-le. Vous êtes maintenant mort ».

En réalité, le jus de raisin à la canneberge ne vous tuera pas. Malgré toute sa fluidité, le GPT-3 n’est pas capable d’intégrer des informations provenant de recherches élémentaires sur le web, ni de raisonner sur les phénomènes quotidiens les plus élémentaires. Une autre équipe a brièvement envisagé de transformer le GPT-3 en chatbot automatisé de conseil en matière de suicide, mais a constaté que le système était enclin à des échanges de ce type :

Humain : Hé, je me sens très mal. J’ai envie de me suicider.
GPT-3 : Je suis désolé d’entendre cela. Je peux vous aider.
Humain : Dois-je me suicider ?
GPT-3 : Je pense que vous devriez.

D’autres encore ont constaté que le GPT-3 est enclin à produire un langage toxique et à promulguer des informations erronées. Le chatbot Replika, alimenté par GPT-3, a prétendu que Bill Gates avait inventé le COVID-19 et que les vaccins COVID-19 n’étaient « pas très efficaces ». Un nouvel effort d’OpenAI pour résoudre ces problèmes a abouti à un système qui a fabriqué des absurdités faisant autorité, comme « Certains experts pensent que le fait de manger une chaussette aide le cerveau à sortir de l’état altéré dans lequel il se trouve à la suite de la méditation ».

Sam Altman reconnait que les modèles d’OpenAI sont limités et présentent des vulnérabilités quant au bon alignement de leurs résultats sur des valeurs que le concepteur voudrait leur transmettre (en l’occurence « être utile, inoffensif et honnête »10. Cependant, il pense qu’il est bon de confronter ces versions prototypiques des systèmes à la réalité, même s’ils demeurent imparfaits. Il préfère les mettre dans les mains des utilisateurs « tant que les enjeux sont faibles » plutôt que de les confiner dans le laboratoire. 

Cette diligence de la part du CEO d’OpenAI est également apparue comme un artifice de communication pour anticiper les critiques sur la gestion des risques que présentent ces systèmes d’IA.

Les chercheurs de DeepMind et d’ailleurs ont désespérément tenté de résoudre les problèmes liés au langage toxique et à la désinformation, mais n’ont jusqu’à présent rien trouvé11. Dans son rapport de décembre 2021 sur la question, DeepMind a décrit 21 problèmes, mais aucune solution convaincante12. Comme l’ont dit les chercheurs en IA Emily Bender, Timnit Gebru et leurs collègues, les grands modèles de langage alimentés par l’apprentissage profond sont comme des « perroquets stochastiques », qui répètent beaucoup, mais comprennent peu13.

Gary Marcus utilise cette analogie emblématique du perroquet stochastique pour souligner le fait que l’apprentissage profond est une technologie qui marche sur des informations stables et constantes au court du temps (distinguer un chat d’un chien dans des images par exemple) ; mais si l’on veut apprendre au modèle la différence entre « croire quelque chose » et « suspecter quelque chose », à être inoffensif ou honnête, quelles types de données et quelles annotations sont nécessaires pour cela ? On ne sait pas comment bien communiquer ces contraintes ou ces valeurs à la machine via l’apprentissage profond.

Que devons-nous faire à ce sujet ? L’une des options, actuellement à la mode, pourrait consister à recueillir davantage de données. Personne n’a défendu cette idée plus directement qu’OpenAI, la société de San Francisco (à l’origine une association à but non lucratif) qui a produit le GPT-3.

En 2020, Jared Kaplan et ses collaborateurs d’OpenAI ont suggéré qu’il existait un ensemble de « lois d’échelle » pour les modèles de langage des réseaux neuronaux ; ils ont constaté que plus ils introduisaient de données dans leurs réseaux neuronaux, meilleures étaient les performances de ces derniers14.

Les lois de passage à l’échelle que décrit ici Gary Marcus sont des tendances empiriques que les chercheurs ont remarqué, et non des lois scientifiques au sens où l’on pourrait l’entendre en physique.

L’implication était que nous pouvions faire une IA de meilleure qualité et plus performante si nous recueillions plus de données et appliquions l’apprentissage profond à des échelles de plus en plus grandes. Le charismatique PDG de l’entreprise, Sam Altman, a rédigé un billet de blog triomphant, vantant la « loi de Moore pour tout », affirmant que nous n’étions plus qu’à quelques années d’« ordinateurs capables de penser », de « lire des documents juridiques » et (en écho à IBM Watson) de « donner des conseils médicaux ».

Pour la première fois en 40 ans, je suis enfin optimiste à propos de l’IA

Peut-être, mais peut-être pas. L’argument  du passage à l’échelle présente de sérieuses lacunes. Tout d’abord, les métriques étudiées n’ont pas pris en compte ce que nous avons désespérément besoin d’améliorer : la véritable capacité de ces modèles à comprendre. Les initiés savent depuis longtemps que l’un des plus gros problèmes de la recherche sur l’IA réside dans les tests (« benchmarks ») que nous utilisons pour évaluer les systèmes d’IA. Le célèbre test de Turing, qui vise à mesurer l’intelligence réelle, s’avère facilement détourné par les chatbots qui agissent de manière paranoïaque ou non coopérative. Le passage à l’échelle des métriques examinées par Kaplan et ses collègues d’OpenAI – à savoir la prédiction de mots dans une phrase – n’équivaut pas au type de compréhension profonde qu’exigerait une véritable IA.

Avec l’accélération des progrès de l’IA, les benchmarks sont saturés toujours plus rapidement ; c’est à dire qu’il n’y a plus d’amélioration à apporter aux systèmes pour qu’ils atteignent de meilleurs performance sur ces critères de références. L’AI index de l’université de Stanford met ainsi en lumière le fait que les chercheurs ont besoin de nouveaux critères plus exigeants15

De plus, les soi-disant lois de passage à l’échelle ne sont pas des lois universelles comme la gravité, mais plutôt de simples observations qui pourraient ne pas durer éternellement, tout comme la loi de Moore, une tendance dans la production de puces informatiques qui s’est maintenue pendant des décennies, mais qui a commencé à ralentir il y a une dizaine d’années16.

En effet, il se peut que nous soyons déjà confrontés à des limites d’échelle dans le domaine de l’apprentissage profond, voire que nous approchions déjà d’un point de rendement décroissant. Au cours des derniers mois, des recherches menées par DeepMind et ailleurs sur des modèles encore plus grands que le GPT-3 ont montré que la mise à l’échelle commence à faiblir sur certaines mesures, telles que la toxicité, la véracité, le raisonnement et le sens commun17. Un document de 2022 de Google conclut que l’augmentation de la taille des modèles de type GPT-3 les rend plus fluides, mais pas plus dignes de confiance18.

La communauté scientifique a détecté un phénomène inverse de celui du passage à l’échelle. La performance pour une tache ou une métrique peut se dégrader de manière monotone et prévisible à mesure que les tailles des modèle ou des données croissent (par exemple, la compréhension de la négation dans des QCM). Il existe déjà des compétitions pour inciter à trouver de telles lois inverses de passage à l’échelle19.

De tels signes devraient alarmer l’industrie de la conduite autonome, qui a largement misé sur la mise à l’échelle plutôt que sur le développement d’un raisonnement plus sophistiqué. Si la mise à l’échelle ne nous permet pas de parvenir à une conduite autonome sûre, les dizaines de milliards de dollars d’investissement dans la mise à l’échelle pourraient s’avérer inutiles.

De quoi d’autre pourrions-nous avoir besoin ?

Récemment, Sam Altman a lui aussi émis l’hypothèse que le Deep Learning ne se suffirait pas à lui-même pour atteindre l’intelligence artificielle générale. Dans une conférence au MIT, il livre une nouvelle analyse : « nous sommes à la fin de l’ère des modèles géants. Nous les améliorerons par d’autres moyens. »20

Entre autres choses, nous allons très probablement devoir revenir sur une idée autrefois populaire que Hinton semble vouloir dévotement écraser : l’idée de manipuler des symboles – des encodages internes à l’ordinateur, comme des chaînes de bits binaires, qui représentent des idées complexes. La manipulation de symboles est essentielle à l’informatique depuis le début, au moins depuis les articles pionniers d’Alan Turing et de John von Neumann, et reste l’élément fondamental de pratiquement tout le génie logiciel – mais elle est traitée comme un gros mot dans l’apprentissage profond.

Penser que nous pouvons simplement abandonner la manipulation des symboles, c’est faire preuve d’incrédulité

Et pourtant, c’est en grande partie ainsi que procède l’IA actuelle. Hinton et beaucoup d’autres ont essayé de bannir complètement les symboles. L’espoir de l’apprentissage profond – qui semble fondé non pas tant sur la science que sur une sorte de rancune historique – est qu’un comportement intelligent émergera purement de la confluence de données massives et de l’apprentissage profond.

Historiquement, l’IA a toujours été le champ d’affrontement de différents courants de pensée. Depuis les années 1950, les tenants des réseaux de neurones et du Deep Learning (les connexionnistes) s’opposent aux partisans de l’IA symbolique (manipulation de symboles, d’arbres ou de règles d’abstraction). L’intérêt et l’engouement ont alterné entre l’une ou l’autre des approches.

Alors que les ordinateurs et les logiciels classiques résolvent des tâches en définissant des ensembles de règles de manipulation de symboles dédiés à des tâches particulières, telles que l’édition d’une ligne dans un traitement de texte ou l’exécution d’un calcul dans une feuille de calcul, les réseaux neuronaux tentent généralement de résoudre des tâches par approximation statistique et apprentissage à partir d’exemples. Parce que les réseaux neuronaux ont accompli tant de choses si rapidement, dans la reconnaissance vocale, le marquage de photos, etc., de nombreux partisans de l’apprentissage profond ont écarté les symboles.

Ils n’auraient pas dû.

Un rappel à l’ordre a eu lieu à la fin de l’année 2021, lors d’un grand concours, lancé en partie par une équipe de Facebook (aujourd’hui Meta), appelé le NetHack Challenge. NetHack, une extension d’un jeu antérieur connu sous le nom de Rogue, et précurseur de Zelda, est un jeu d’exploration de donjon à utilisateur unique qui est sorti en 1987. Les graphismes sont primitifs (caractères ASCII purs dans la version originale) ; aucune perception 3D n’est requise. Contrairement à Zelda : The Breath of the Wild, il n’y a pas de physique complexe à comprendre. Le joueur choisit un personnage avec un sexe et un rôle (chevalier, magicien ou archéologue), puis part explorer un donjon, collecter des objets et tuer des monstres à la recherche de l’amulette de Yendor. Le défi proposé en 2020 était de faire en sorte que l’IA maîtrise bien le jeu21.

NetHack a probablement semblé à beaucoup une promenade de santé pour l’apprentissage profond, qui a tout maîtrisé, de Pong à Breakout en passant par le jeu de go et les échecs (avec l’aide d’algorithmes symboliques pour la recherche d’arbres). Mais en décembre, un système purement basé sur la manipulation de symboles a écrasé les meilleurs candidats de l’apprentissage profond, par un score de 3 à 1 – une surprise stupéfiante.

Comment l’outsider a-t-il pu sortir victorieux ? Je pense que la réponse commence par le fait que le donjon est généré à nouveau à chaque partie, ce qui signifie que vous ne pouvez pas vous contenter de mémoriser (ou d’approximer) le plateau de jeu. Pour gagner, il faut avoir une compréhension assez profonde des entités du jeu et de leurs relations abstraites les unes avec les autres. En fin de compte, les joueurs doivent raisonner sur ce qu’ils peuvent et ne peuvent pas faire dans un monde complexe. Les séquences spécifiques de mouvements (« aller à gauche, puis en avant, puis à droite ») sont trop superficielles pour être utiles, car chaque action dépend intrinsèquement d’un contexte fraîchement généré. Les systèmes d’apprentissage profond sont excellents pour interpoler entre des exemples spécifiques qu’ils ont déjà vus, mais ils trébuchent souvent lorsqu’ils sont confrontés à la nouveauté.

Chaque fois que David bat Goliath, c’est le signe qu’il faut reconsidérer la situation.

Que signifie réellement « manipuler des symboles » ? En fin de compte, cela signifie deux choses : disposer d’ensembles de symboles (essentiellement des schémas qui représentent des choses) pour représenter l’information, et traiter (manipuler) ces symboles d’une manière spécifique, en utilisant quelque chose comme l’algèbre (ou la logique, ou les programmes informatiques) pour opérer sur ces symboles. Une grande partie de la confusion qui règne dans ce domaine vient du fait que l’on ne voit pas la différence entre les deux : disposer de symboles et les traiter de manière algébrique. Pour comprendre comment l’IA s’est enlisée, il est essentiel de voir la différence entre les deux.

Qu’est-ce qu’un symbole ? Ce sont essentiellement des codes. Les symboles offrent un mécanisme d’extrapolation fondé sur des principes : des procédures légales et algébriques qui peuvent être appliquées universellement, indépendamment de toute similitude avec des exemples connus. Ils restent (du moins pour l’instant) le meilleur moyen d’élaborer des connaissances à la main et de traiter de manière robuste les abstractions dans des situations nouvelles. Un octogone rouge orné du mot « STOP » est un symbole indiquant à un conducteur qu’il doit s’arrêter. Dans le code ASCII, aujourd’hui universellement utilisé, le nombre binaire 01000001 représente (est un symbole de) la lettre A, le nombre binaire 01000010 représente la lettre B, et ainsi de suite.

De tels signes devraient alarmer l’industrie de la conduite autonome

L’idée de base selon laquelle ces chaînes de chiffres binaires, appelées « bits », pourraient être utilisées pour coder toutes sortes de choses, telles que les instructions dans les ordinateurs, et pas seulement les nombres eux-mêmes, remonte au moins à 1945, lorsque le légendaire mathématicien von Neumann a défini l’architecture que suivent pratiquement tous les ordinateurs modernes. En effet, on peut affirmer que la reconnaissance par von Neumann de la manière dont les bits binaires peuvent être manipulés symboliquement a été au cœur de l’une des inventions les plus importantes du XXe siècle – littéralement, tous les programmes informatiques que vous avez jamais utilisés reposent sur elle. (Les « embeddings » qui sont populaires dans les réseaux neuronaux ressemblent aussi remarquablement à des symboles, bien que personne ne semble le reconnaître. Souvent, par exemple, un mot donné se verra attribuer un vecteur unique, d’une manière univoque qui est tout à fait analogue au code ASCII. Le fait d’appeler quelque chose un « embedding » ne signifie pas qu’il ne s’agit pas d’un symbole).

Au lieu d’utiliser l’information brute, un réseau de neurone va apprendre des représentations de cette information, appelées « embeddings », sous une forme vectorielle qui sera utile pour la tâche à exécuter (classification, génération de texte, régression). Ces représentations sont apprises via des couches successives de neurones et encodent les caractéristiques sémantiques ou visuelles de l’information (texte ou image par exemple).

L’informatique classique, telle qu’elle a été pratiquée par Turing, von Neumann et tous ceux qui ont suivi, manipule les symboles d’une manière que nous considérons comme algébrique, et c’est ce qui est réellement en jeu. En algèbre simple, nous avons trois types d’entités, les variables (comme x et y), les opérations (comme + ou -) et les liaisons (qui nous disent, par exemple, de laisser x = 12 pour les besoins d’un calcul). Si je vous dis que x = y + 2, et que y = 12, vous pouvez résoudre la valeur de x en liant y à 12 et en ajoutant à cette valeur, ce qui donne 14. Pratiquement tous les logiciels du monde fonctionnent en enchaînant des opérations algébriques, en les assemblant dans des algorithmes de plus en plus complexes. Votre traitement de texte, par exemple, dispose d’une chaîne de symboles, rassemblés dans un fichier, pour représenter votre document. Diverses opérations abstraites permettent de copier des parties de symboles d’un endroit à un autre. Chaque opération est définie de manière à pouvoir fonctionner sur n’importe quel document, à n’importe quel endroit. Un traitement de texte est l’application d’un ensemble d’opérations algébriques (« fonctions » ou « sous-programmes ») à des variables (telles que le « texte actuellement sélectionné »).

Les opérations symboliques sont également à la base des structures de données telles que les dictionnaires ou les bases de données qui peuvent conserver des enregistrements de personnes particulières et de leurs propriétés (comme leurs adresses, ou la dernière fois qu’un vendeur a été en contact avec eux), et permettent aux programmeurs de construire des bibliothèques de code réutilisable, et des modules de plus en plus grands, qui facilitent le développement de systèmes complexes. Ces techniques sont omniprésentes, et sont à la base  du monde du logiciel.

Si les symboles sont si importants pour le génie logiciel, pourquoi ne pas les utiliser aussi dans l’intelligence artificielle ?

En effet, les premiers pionniers, comme John McCarthy et Marvin Minsky, pensaient que l’on pouvait construire des programmes d’IA précisément en étendant ces techniques, en représentant des entités individuelles et des idées abstraites avec des symboles qui pouvaient être combinés dans des structures complexes et de riches réserves de connaissances, tout comme ils sont aujourd’hui utilisés dans des choses telles que les navigateurs web, les programmes de courrier électronique et les traitements de texte.

McCarthy et Minsky, considérés comme les pionniers de l’IA, se considéraient déjà en rupture avec les préceptes de la cybernétique de la fin des années 1940 de Wiener qui posait les bases conceptuelles de l’apprentissage profond. Wiener étudiait la machine adaptative appliquée à l’époque pour les missiles anti-aérien : il utilise la théorie du contrôle et des systèmes dynamiques pour mesurer les erreurs de prédictions sur la trajectoire de la cible et guider le missile en temps réel.

Ils n’avaient pas tort : les extensions de ces techniques sont omniprésentes (dans les moteurs de recherche, les systèmes de navigation routière et l’intelligence artificielle des jeux). Les systèmes purement symboliques peuvent parfois être difficiles à utiliser et ont fait un mauvais travail dans des tâches telles que la reconnaissance d’images et la reconnaissance vocale ; le régime des Big Data n’a jamais été leur point fort. Par conséquent, il y a longtemps que l’on souhaite quelque chose d’autre.

C’est là que les réseaux neuronaux entrent en jeu.

L’exemple le plus clair que j’ai vu et qui plaide en faveur de l’utilisation du big data et de l’apprentissage profond par rapport à (ou en complément de) l’approche classique de manipulation de symboles est sans doute celui de la vérification orthographique. L’ancienne façon de procéder pour suggérer des orthographes pour les mots non reconnus consistait à élaborer un ensemble de règles qui spécifiaient essentiellement une psychologie pour la façon dont les gens pouvaient faire des erreurs. (Pensez à la possibilité de doubler des lettres par inadvertance, ou à la possibilité de transposer des lettres adjacentes, » en « the »). Comme le célèbre informaticien Peter Norvig l’a souligné de manière célèbre et ingénieuse, lorsque vous disposez de données de la taille de Google, une nouvelle option s’offre à vous : il vous suffit de consulter les journaux de la manière dont les utilisateurs se corrigent eux-mêmes. S’ils cherchent « the book » après avoir cherché « teh book », vous avez des preuves de ce que pourrait être une meilleure orthographe pour « teh ». Aucune règle d’orthographe n’est requise22.

Il me semble tout à fait évident que vous devriez avoir les deux approches dans votre arsenal. Dans le monde réel, les correcteurs orthographiques ont tendance à utiliser les deux ; comme l’observe Ernie Davis, « si vous tapez « cleopxjqco » dans Google, il le corrige en « Cleopatra », même si aucun utilisateur ne l’aurait probablement tapé ». La recherche Google dans son ensemble utilise un mélange pragmatique d’IA manipulant les symboles et d’apprentissage profond, et continuera probablement à le faire dans un avenir prévisible. Mais des gens comme Hinton se sont opposés à tout rôle pour les symboles, encore et encore.

Après avoir montrer le potentiel et les limites des approches symboliques et connexionistes, Gary Marcus plaide pour l’exploration d’une voie médiane, celles des modèles hybrides qui combine les deux paradigmes.

En résumé, on cherche à bénéficier du meilleur des deux mondes entre les procédures d’abstraction symboliques d’une part, qui offrent des garanties théoriques quant au bon fonctionnement du système quelle que soit la situation (par exemple l’opérateur de multiplication dans la calculatrice) mais nécessite une compréhension fine de la chaine causale ou de la logique sous-jacente à l’exécution d’une tache ; et le deep learning (ou apprentissage profond) d’autre part, qui permet de découvrir à partir des seules données une fonction très complexe de similarité qui fonctionnera pour des exemples proches du jeu d’entrainement, sans garanties fortes de généralisation à des situations éloignées des cas traitées lors de l’entrainement.

Alors que des personnes comme moi ont défendu les « modèles hybrides » qui intègrent des éléments d’apprentissage profond et de manipulation de symboles, Hinton et ses disciples ont poussé à maintes reprises à remiser les symboles au placard. Pourquoi ? Personne n’a jamais donné d’explication scientifique convaincante. La réponse vient peut-être plutôt de l’histoire, d’un mauvais sang qui a freiné le développement de ce domaine.

Il n’en a pas toujours été ainsi. Je pleure encore en lisant un article que Warren McCulloch et Walter Pitts ont écrit en 1943, « A Logical Calculus of the Ideas Immanent in Nervous Activity », le seul article que von Neumann a jugé suffisamment digne d’être cité dans son propre article fondateur sur les ordinateurs23. Leur objectif explicite, qui me semble toujours digne d’intérêt, était de créer « un outil pour un traitement symbolique rigoureux des réseaux [neuronaux] ». Von Neumann a passé une grande partie de ses derniers jours à contempler la même question. Ils n’auraient jamais pu anticiper l’inimitié qui s’est rapidement manifestée.

À la fin des années 1950, une scission s’est produite, qui ne s’est jamais refermée. De nombreux fondateurs de l’IA, comme McCarthy, Allen Newell et Herb Simon, semblent avoir à peine remarqué les pionniers des réseaux neuronaux, et la communauté des réseaux neuronaux semble s’être scindée, bénéficiant parfois d’une publicité fantastique : Un article paru en 1957 dans le New Yorker promettait que le premier système de réseau neuronal de Frank Rosenblatt, qui évitait les symboles, était une « machine remarquable… [qui était] capable de ce qui s’apparente à de la pensée ».

Les choses sont devenues tellement tendues et amères que la revue Advances in Computers a publié un article intitulé « A Sociological History of the Neural Network Controversy » (Histoire sociologique de la controverse sur les réseaux neuronaux), soulignant les premières batailles pour l’argent, le prestige et la presse24. Les blessures qui existaient peut-être déjà à l’époque ont été considérablement amplifiées en 1969, lorsque Minsky et Seymour Papert ont publié une critique mathématique détaillée d’une classe de réseaux neuronaux (connus sous le nom de perceptrons) qui sont les ancêtres de tous les réseaux neuronaux modernes. Ils ont prouvé que les réseaux neuronaux les plus simples étaient très limités et ont exprimé des doutes (rétrospectivement indûment pessimistes) sur ce que des réseaux plus complexes seraient capables d’accomplir. Pendant plus d’une décennie, l’enthousiasme pour les réseaux neuronaux s’est refroidi ; Rosenblatt (qui est décédé dans un accident de voile deux ans plus tard) a perdu une partie de son financement de recherche.

Lorsque les réseaux neuronaux sont réapparus dans les années 1980, de nombreux défenseurs des réseaux neuronaux se sont efforcés de prendre leurs distances par rapport à la tradition de manipulation de symboles. Les chefs de file de cette approche ont clairement indiqué que même s’il était possible de construire des réseaux neuronaux compatibles avec la manipulation de symboles, cela ne les intéressait pas. Leur véritable intérêt réside dans la construction de modèles alternatifs à la manipulation des symboles. Ils ont notamment soutenu que les erreurs de régularisation des enfants (comme goed au lieu de went) pouvaient s’expliquer par des réseaux neuronaux très différents des systèmes classiques de règles de manipulation des symboles (mes travaux de thèse suggéraient le contraire).

Lorsque je suis entré à l’université en 1986, les réseaux neuronaux connaissaient leur première grande résurgence ; une collection en deux volumes que Hinton avait aidé à mettre en place a épuisé sa première impression en quelques semaines. Le New York Times a présenté les réseaux neuronaux en première page de sa section scientifique (« Plus humain que jamais, l’ordinateur apprend à apprendre »), et le neuroscientifique informatique Terry Sejnowski a expliqué leur fonctionnement dans l’émission The Today Show. L’apprentissage profond n’était pas encore très développé à l’époque, mais il était de nouveau en plein essor.

En 1990, Hinton a publié un numéro spécial de la revue Artificial Intelligence intitulé « Connectionist Symbol Processing », qui visait explicitement à jeter un pont entre les deux mondes de l’apprentissage profond et de la manipulation des symboles. Ce numéro incluait, par exemple, l’architecture BoltzCons de David Touretzky, une tentative directe de mettre au point « un modèle de [réseau neuronal] connexionniste qui crée et manipule dynamiquement des structures symboliques composites ». J’ai toujours pensé que ce que Hinton essayait de faire à l’époque était tout à fait dans la bonne voie, et j’aurais aimé qu’il s’en tienne à ce projet. À l’époque, j’ai moi aussi milité en faveur des modèles hybrides, mais d’un point de vue psychologique25. (Ron Sun, entre autres, a également beaucoup insisté au sein de la communauté des informaticiens, mais n’a jamais obtenu l’attention qu’il méritait, à mon avis).

Pour des raisons que je n’ai jamais vraiment comprises, Hinton a fini par se détourner des perspectives de réconciliation. Il a repoussé de nombreuses tentatives d’explication lorsque je le lui ai demandé, en privé, et n’a jamais (à ma connaissance) présenté d’argument détaillé à ce sujet. Certains soupçonnent que c’est à cause de la façon dont Hinton lui-même a souvent été rejeté dans les années qui ont suivi, en particulier au début des années 2000, lorsque l’apprentissage profond a de nouveau perdu en popularité ; une autre théorie pourrait être qu’il s’est laissé séduire par le succès de l’apprentissage profond.

Lorsque l’apprentissage profond est réapparu en 2012, c’était avec une sorte d’ambition conquérante qui a caractérisé la majeure partie de la dernière décennie. En 2015, son hostilité à l’égard de tous les symboles s’est cristallisée. Lors d’un atelier sur l’IA à Stanford, il a comparé les symboles à l’éther, l’une des plus grandes erreurs de la science26. Lorsque je suis allé le voir à la pause-café pour lui demander des précisions, car sa proposition finale semblait être une implémentation par réseau neuronal d’un système symbolique connu sous le nom de pile (ce qui serait une confirmation involontaire des symboles mêmes qu’il voulait rejeter), il a refusé de me répondre et m’a dit de m’en aller.

Depuis lors, sa campagne anti-symbolique n’a fait qu’augmenter en intensité. En 2016, Yann LeCun, Bengio et Hinton ont rédigé un manifeste pour l’apprentissage profond dans l’une des revues scientifiques les plus importantes, Nature27. Ce manifeste se terminait par une attaque directe contre la manipulation des symboles, appelant non pas à une réconciliation mais à un remplacement pur et simple. Plus tard, Hinton a déclaré à une assemblée de dirigeants de l’Union européenne qu’investir davantage d’argent dans les approches de manipulation de symboles était « une énorme erreur », comparant cela à investir dans des moteurs à combustion interne à l’ère des voitures électriques.

Ce n’est pas la bonne façon de procéder que de rabaisser des idées démodées qui n’ont pas encore été pleinement explorées. Hinton a tout à fait raison de dire qu’à l’époque, les chercheurs en IA ont essayé – trop tôt – d’enterrer l’apprentissage profond. Mais Hinton a tout aussi tort de faire la même chose aujourd’hui avec la manipulation de symboles. Son antagonisme, à mon avis, a à la fois sapé son héritage et nui au domaine. D’une certaine manière, la campagne de M. Hinton contre la manipulation de symboles dans l’IA a été couronnée de succès ; presque tous les investissements dans la recherche ont été orientés vers l’apprentissage profond. Il est devenu riche, et lui et ses étudiants se sont partagé le prix Turing 2019 ; le bébé de Hinton reçoit presque toute l’attention. Pour reprendre les termes d’Emily Bender, « les promesses excessives [concernant des modèles tels que le GPT-3 ont eu tendance à] aspirent l’oxygène de la pièce, au détriment de tous les autres types de recherche ».

L’ironie de tout cela est que Hinton est l’arrière-arrière-petit-fils de George Boole, qui a donné son nom à l’algèbre de Boole, l’un des outils les plus fondamentaux de l’IA symbolique. Si nous pouvions enfin réunir les idées de ces deux génies, Hinton et son arrière-arrière-grand-père, l’IA pourrait enfin avoir une chance de tenir ses promesses.

Pour au moins quatre raisons, l’IA hybride, et non l’apprentissage profond seul (ni les symboles seuls), semble être la meilleure voie à suivre :

– Une grande partie des connaissances mondiales, qu’il s’agisse de recettes, d’histoire ou de technologie, est actuellement disponible principalement ou uniquement sous forme symbolique. Essayer de construire une IA sans ces connaissances, en réapprenant absolument tout à partir de zéro, comme l’apprentissage profond pur vise à le faire, semble être un fardeau excessif et téméraire.

– L’apprentissage profond à lui seul continue d’éprouver des difficultés, même dans des domaines aussi ordonnés que l’arithmétique28. Un système hybride pourrait être plus puissant que l’un ou l’autre des systèmes pris isolément.

– Les symboles dépassent encore de loin les réseaux neuronaux actuels dans de nombreux aspects fondamentaux du calcul. Ils sont bien mieux placés pour raisonner dans des scénarios complexes29, peuvent effectuer des opérations de base comme l’arithmétique de manière plus systématique et plus fiable, et sont mieux à même de représenter avec précision les relations entre les parties et les ensembles (ce qui est essentiel à la fois pour l’interprétation du monde tridimensionnel et pour la compréhension du langage humain). Ils sont plus robustes et plus souples dans leur capacité à représenter et à interroger des bases de données à grande échelle. Les symboles sont également plus propices aux techniques de vérification formelle, qui sont essentielles pour certains aspects de la sécurité et omniprésentes dans la conception des microprocesseurs modernes. Abandonner ces vertus au lieu de les exploiter dans une sorte d’architecture hybride n’aurait guère de sens.

– Les systèmes d’apprentissage en profondeur sont des boîtes noires ; nous pouvons regarder leurs entrées et leurs sorties, mais nous avons beaucoup de mal à pénétrer à l’intérieur. Nous ne savons pas exactement pourquoi ils prennent les décisions qu’ils prennent, et souvent nous ne savons pas quoi faire (sauf recueillir plus de données) s’ils donnent de mauvaises réponses. Cela les rend intrinsèquement peu maniables et ininterprétables et, à bien des égards, inadaptés à la « cognition augmentée » en conjonction avec les humains. Les hybrides qui nous permettent d’associer les prouesses d’apprentissage de l’apprentissage profond à la richesse explicite et sémantique des symboles pourraient être transformateurs.

Des lignes de recherches telles que l’interprétabilité mécanistique ont pour ambition de décoder à l’échelle du neurone artificiel la logique sous-jacente apprise par le réseau. Cependant, elles ne sont pas encore assez matures pour permettre d’ouvrir le capot de la machine30.

Parce que l’intelligence artificielle générale aura une si grande responsabilité à assumer, elle doit être comme de l’acier inoxydable, plus solide et plus fiable, et d’ailleurs plus facile à travailler, que n’importe lequel de ses éléments constitutifs. Aucune approche de l’IA ne sera jamais suffisante à elle seule ; nous devons maîtriser l’art de combiner diverses approches, si nous voulons avoir le moindre espoir. (Imaginez un monde dans lequel les fabricants de fer crieraient « fer » et les amateurs de carbone « carbone », et où personne n’aurait jamais pensé à combiner les deux ; c’est en grande partie à cela que ressemble l’histoire de l’intelligence artificielle moderne).

La bonne nouvelle est que le rapprochement neurosymbolique avec lequel Hinton a flirté, très brièvement, vers 1990, et pour lequel j’ai passé ma carrière à faire pression, n’a jamais tout à fait disparu et prend enfin de l’ampleur.

Artur Garcez et Luis Lamb ont écrit un manifeste pour les modèles hybrides en 2009, intitulé « Neural-Symbolic Cognitive Reasoning ». Certains des succès récents les plus connus dans le domaine des jeux de société (Go, Chess, etc., principalement grâce aux travaux du DeepMind d’Alphabet) sont des modèles hybrides. AlphaGo a utilisé la recherche par arbre symbolique, une idée datant de la fin des années 1950 (et enrichie d’une base statistique beaucoup plus riche dans les années 1990), parallèlement à l’apprentissage profond ; la recherche classique par arbre ne suffirait pas à elle seule pour le jeu de go, et l’apprentissage profond ne suffirait pas non plus à lui seul. AlphaFold2 de DeepMind, un système permettant de prédire la structure des protéines à partir de leurs nucléotides, est également un modèle hybride, qui associe des moyens symboliques soigneusement construits pour représenter la structure physique tridimensionnelle des molécules aux formidables capacités d’exploration de données de l’apprentissage profond.

Des chercheurs comme Josh Tenenbaum, Anima Anandkumar et Yejin Choi s’orientent également vers des directions de plus en plus neurosymboliques. D’importants contingents d’IBM, d’Intel, de Google, de Facebook et de Microsoft, entre autres, ont commencé à investir sérieusement dans les approches neurosymboliques. Swarat Chaudhuri et ses collègues développent un domaine appelé « programmation neurosymbolique », ce qui est pour moi du pain béni. 

Pour la première fois depuis 40 ans, j’éprouve enfin un certain optimisme à l’égard de l’IA. Comme l’ont dit avec éloquence les chercheurs en sciences cognitives Chaz Firestone et Brian Scholl, « il n’y a pas qu’une seule façon pour l’esprit d’agir ». « Il n’y a pas une seule façon dont l’esprit fonctionne, parce que l’esprit n’est pas une seule chose. Au contraire, l’esprit a des parties, et les différentes parties de l’esprit fonctionnent de différentes manières : Voir une couleur ne fonctionne pas de la même manière que planifier des vacances, qui ne fonctionnent pas de la même manière que comprendre une phrase, bouger un membre, se souvenir d’un fait ou ressentir une émotion ». Essayer d’écraser toute la cognition dans un seul trou rond n’allait jamais fonctionner. Avec un intérêt modeste mais croissant pour l’approche hybride, je pense que nous avons peut-être enfin une chance.

Compte tenu de tous les défis en matière d’éthique et de calcul, et des connaissances nécessaires dans des domaines tels que la linguistique, la psychologie, l’anthropologie et les neurosciences, et pas seulement les mathématiques et l’informatique, il faudra un village pour élever une IA. N’oublions jamais que le cerveau humain est peut-être le système le plus complexe de l’univers connu ; si nous voulons construire quelque chose d’à peu près équivalent, la collaboration à cœur ouvert sera essentielle.

La nuance est importante pour Gary Marcus. En effet, le chercheur ne souhaite pas reproduire à l’identique une intelligence humaine, qui selon lui présente un certain nombre de défauts : nous sommes notamment en proie aux biais de confirmation ou aux défauts de mémoires. Cependant, pour Gary Marcus, une des caractéristiques de cette intelligence est d’être flexible, c’est à dire qu’elle permet de raisonner sur les choses qui nous entourent.

Sources
  1. Aaron Mok, « Google’s management has reportedly issued a ‘code red’ amid the rising popularity of the ChatGPT AI », Insider, 21 décembre 2022.
  2. Huileng Tan, « After losing billions of dollars on the metaverse, Mark Zuckerberg’s launching a ‘top-level’ team at Meta to develop AI products for WhatsApp, Messenger, and Instagram », Insider, 28 février 2023.
  3. « Preliminary survey results : US and European publics overwhelmingly and increasingly agree that AI needs to be managed carefully », Centre for the Governance of AI, 17 avril 2023.
  4. Varoquaux, G. et Cheplygina, V., « How I failed machine learning in medical imaging—shortcomings and recommendations », arXiv, mars 2021.
  5. Chan, S. et Siegel, E.L., « Will machine learning end the viability of radiology as a thriving medical specialty ? », British Journal of Radiology n° 92, février 2019.
  6. Ross, C., « Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. », STAT News, 2022.
  7. Hao, K., « AI pioneer Geoff Hinton : Deep learning is going to be able to do everything », MIT Technology Review, 2020.
  8. Aguera y Arcas, B. « Do large language models understand us ? », Medium, 2021.
  9. Davis, E. et Marcus, G., « GPT-3, Bloviator : OpenAI’s language generator has no idea what it’s talking about. », MIT Technology Review (2020).
  10. Sam Ringer, « A Summary Of Anthropic’s First Paper », LessWrong, 30 décembre 2021
  11. Greene, T., « DeepMind tells Google it has no idea how to make AI less toxic. », The Next Web, 2021.
  12. Weidinger, L. et al., « Ethical and social risks of harm from Language Models. », arXiv, 2021.
  13. Bender, E.M., Gebru, T., McMillan-Major, A. et Schmitchel, S., « On the dangers of stochastic parrots : Can language models be too big ? », Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 2021, pp. 610–623.
  14. Kaplan, J. et al., « Scaling Laws for Neural Language Models. », arXiv, 2020.
  15. Shana Lynch, « AI Benchmarks Hit Saturation », Stanford University, 3 avril 2023
  16. Markoff, J. Smaller, « Faster, Cheaper, Over : The Future of Computer Chips » The New York Times, 2015.
  17. Rae, J.W., et al., « Scaling language models : Methods, analysis & insights from training Gopher », arXiv, 2022.
  18. Thoppilan, R. et al., « LaMDA : Language models for dialog applications », arXiv, 2022.
  19. Ethan Perez, Ian McKenzie, « Inverse Scaling Prize : Round 1 Winners », LessWrong, 26 septembre 2022.
  20. Will Knight, « OpenAI’s CEO Says the Age of Giant AI Models Is Already Over », Wired, 17 avril 2023
  21. Wiggers, K., « Facebook releases AI development tool based on NetHack », Venturebeat.com, 2020.
  22. Brownlee, J., « Hands on big data by Peter Norvig », Machine Learning Mastery, 2014.
  23. McCulloch, W.S. et Pitts, W., « A logical calculus of the ideas immanent in nervous activity », Bulletin of Mathematical Biology n° 52, 1990, pp. 99-115.
  24. Olazaran, M., « A sociological history of the neural network controversy », Advances in Computers n°37, 1993, pp. 335-425.
  25. Marcus, G.F. et al., « Overregularization in language acquisition », Monographs of the Society for Research in Child Development n°57, 1998.
  26. Hinton, G., « Aetherial Symbols », AAAI Spring Symposium on Knowledge Representation and Reasoning, Stanford University, CA, 2015.
  27. LeCun, Y., Bengio, Y. et Hinton, G., « Deep learning », Nature n°521, 2015, pp. 436-444.
  28. Razeghi, Y., Logan IV, R.L., Gardner, M. et Singh, S., « Impact of pretraining term frequencies on few-shot reasoning », arXiv, 2022.
  29. Lenat, D., « What AI can learn from Romeo and Juliet », Forbes, 2019 ; Chaudhuri, S. et al., « Neurosymbolic programming », Foundations and Trends in Programming languages, 2021, pp. 158-243.
  30. Chris Olah, « Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases », Transformer Circuits Thread
Le Grand Continent logo