Le papier « Less is More : Recursive Reasoning with Tiny Networks » 1, qui a émergé en octobre au milieu d’un tumulte d’annonces, a déclenché une petite révolution dans l’écosystème IA..
Alors que les infrastructures de l’IA — puces, data centers — sont entrées au cœur des discussions industrielles et stratégiques, sujettes à des investissements colossaux, cet article signé Alexia Jolicœur-Martineau vient bouleverser des certitudes.
Chercheuse en intelligence artificielle au Samsung SAIT AI Lab, elle est spécialisée dans les modèles génératifs profonds, elle travaille sur ces approches depuis une dizaine d’années. Elle est notamment reconnue pour avoir introduit les Relativistic GANs, une amélioration des GAN classiques — des modèles capables de créer de nouvelles données réalistes à partir d’un jeu d’entraînement, comme des images, de la musique ou du texte.
Dans un contexte de pénurie de puissance de calcul, l’écosystème tout entier observe avec attention les innovations architecturales susceptibles de rebattre les cartes.
Contrairement aux Large Language Models (LLM) préentraînés s’appuyant sur d’énormes corpus de données — web, code, livres, documents scientifiques —, les Tiny Recursive Models (TRM) utilisent une ingénierie plus ciblée — deep supervision, deep recursion, data augmentation. Comment décririez-vous les innovations principales de votre papier, leurs fonctions et les principaux résultats qui en découlent ?
L’idée des TRM, c’est qu’un petit modèle peut raisonner récursivement pour mettre à jour sa réponse.
Un LLM, ce que tout le monde utilise aujourd’hui, doit générer ses réponses un token à la fois 2, ce qui équivaut à un demi-mot à la fois ; s’il fait une seule erreur, la suite du raisonnement est faussée car l’erreur se propage. Par exemple, s’il fait 1+1 = 3, toute la suite du raisonnement est invalidée à cause du 3 qui va propager l’erreur.
En mettant à jour sa réponse et en réfléchissant récursivement à propos de sa réponse, il est possible d’enlever des erreurs.
Si le TRM fait des erreurs, il peut revenir sur ses pas — c’est ce qu’on appelle le backtrack — puis changer sa réponse. Cela lui permet d’attendre d’avoir une bonne réponse et de la peaufiner avant de la générer ; à la différence des LLM, le TRM génère sa réponse d’un coup, et non un token à la fois.
Le TRM est un tout petit modèle : l’idée est que son caractère récursif lui permet de raisonner davantage mais avec très peu de paramètres. Il dispose ainsi de 10 000 fois moins de paramètres qu’un LLM classique et est 1000 fois plus rapide — même si les chiffres sont difficiles à estimer. Cela permet de l’entraîner avec beaucoup moins de ressources ; pour cette raison, il est indirectement plus éco-responsable.
Étant petit, le modèle peut directement fonctionner sur un téléphone, ce qui n’est pas possible avec les LLM à l’heure actuelle. Aujourd’hui, les données transitent par Internet et sont traitées sur des serveurs externes avant de revenir à l’utilisateur ; la confidentialité n’est donc pas garantie. Avec un petit modèle qui tourne sur le téléphone, celle-ci est davantage préservée et le modèle fonctionne même sans connexion.
La promesse de ce changement de paradigme a aussi bénéficié à Samsung. Mon article est sorti pendant les congés en Corée du Sud ; au retour des vacances, après sa publication, la capitalisation boursière de Samsung a bondi de 10 % — l’équivalent d’environ 60 milliards de dollars.
Le TRM dispose de 10 000 fois moins de paramètres qu’un LLM classique et est 1000 fois plus rapide.
Alexia Jolicoeur-Martineau
Votre article suggère que, pour certaines tâches exigeantes de raisonnement, on peut drastiquement troquer la taille du modèle — le nombre de layers 3 — contre une dynamique d’apprentissage alternative — deep supervision, deep recursion — et une meilleure structuration de la quantité de calcul utilisée pour l’inférence. Quelle est l’idée sous-jacente pour que cela fonctionne ?
Les LLM doivent déjà utiliser du temps de calcul pour l’inférence.
Pour éviter qu’une erreur sur un token pénalise toute la suite de la réponse, plusieurs techniques de génération explorent le fait de dérouler plusieurs tentatives de réponses avant de choisir la meilleure — ou celle qui revient le plus souvent. En conséquence, ces méthodes utilisent plus de calcul pour l’inférence.
De ce point de vue, cela ne change pas de ce que font les TRM, mais ces derniers sont plus petits, donc l’inférence peut se faire sur les téléphones mobiles ; leur entraînement est beaucoup plus efficace et il coûte moins de 500 dollars.
Même si on a toujours besoin de données de très bonne qualité, on peut traiter beaucoup plus de données bien plus rapidement, car les modèles sont beaucoup plus petits et la réponse est générée en une fois.
Observe-t-on pour ces modèles des lois d’échelle 4, comme c’est le cas avec les LLM ? Si oui, quelles sont les variables sur lesquelles jouer pour avoir des outils plus performants ? Faut-il donner plus de données au modèle, ou lui faire retravailler ses réponses un plus grand nombre de fois ?
Le nombre de récursions nécessaire 5 est fonction de la difficulté des tâches : des tâches plus faciles vont prendre moins de récursions mais des tâches plus difficiles vont en demander plus.
L’idée serait donc d’atteindre un certain équilibre entre les deux.
La donnée — en quantité et en qualité — reste aussi fondamentale dans l’équation car plus le modèle s’améliore, moins il y a besoin de récursion. Quand le problème devient vraiment difficile, il peut néanmoins être utile de réfléchir plus longtemps.
Vous éprouvez votre modèle sur des problèmes comme la complétion de grilles de sudoku ou des benchmarks de raisonnement et vous pouvez optimiser l’architecture du modèle en fonction de la tâche. Avec les LLM, nous avions cru pouvoir en finir avec un monde où un modèle était spécialisé pour une tâche spécifique. Est-ce qu’on retourne vers ce monde de modèles spécialisés par tâche ou d’architectures spécialisées pour différents types de tâches ?
Il y a un équilibre à trouver entre les deux.
Avec les LLM, on a trop penché vers une seule direction parce que le paradigme précédent était celui de la spécialisation. On a pris l’un de ces modèles, et on a remarqué qu’il pouvait faire mieux sur toutes les tâches ; ce paradigme nécessite cependant tellement de ressources qu’on parle de milliards de dollars pour des améliorations marginales de plus en plus petites. Cela me paraît excessif.
Ce que j’essaye de mettre en avant, ce sont des modèles plus petits et plus simples, qui vont être aussi performants que les LLM sur des tâches spécialisées. On pourra ensuite penser à conceptualiser un modèle plus général qui choisirait le modèle spécialisé à exécuter pour une tâche.
Mon article est sorti pendant les congés en Corée du Sud ; au retour des vacances, après sa publication, la capitalisation boursière de Samsung a bondi de 10 % — l’équivalent d’environ 60 milliards de dollars.
Alexia Jolicoeur-Martineau
On peut songer pour cela à Windows, par exemple : celui-ci comprend des sous-programmes ; même sans connaître ceux-ci dans le détail, le programme plus général qui les gère a la capacité de les utiliser et d’exploiter leurs résultats pour raisonner.
Les progrès dans votre domaine de recherche sont rapides. Vous améliorez en fait significativement les résultats d’un papier paru en juin 2025 6. Quel futur voyez-vous pour les Tiny Recursive Models ? D’ici deux ou trois articles sur le sujet, quels sont les résultats que l’on pourrait espérer ?
Les choses devraient aller vite : je pense qu’il y a beaucoup d’intérêt en ce moment pour les TRM et je continue de travailler là-dessus pour de nouvelles applications.
On peut s’attendre à ce qu’ils servent dans toutes sortes de domaines, par exemple les matériaux ou les molécules.
C’est très important, en particulier pour Samsung car les écrans de téléphones utilisent beaucoup de recherche en biologie moléculaire pour obtenir une meilleure luminosité, par exemple.
Plus généralement, la robotique mobile en bénéficiera : avec les LLM, les modèles sont trop gros et le temps de latence trop important : à les employer, le robot aurait des mouvements saccadés.
Il est nécessaire d’avoir des modèles plus rapides et petits pour pouvoir créer des robots bougeant de façon continue sans difficultés.
Vos travaux invitent à nuancer l’analogie biologique souvent mobilisée pour justifier certains choix de conception en IA — notamment ceux de l’article duquel vous êtes partie pour votre propre travail. Comment percevez-vous l’usage de ces métaphores — et plus généralement du vocabulaire anthropomorphique comme thinking tokens, reasoning ou hallucinating — lorsqu’il s’agit de décrire le comportement des modèles ?
Je pense que les métaphores sont des raccourcis — imparfaits, certes, mais souvent utiles pour comprendre des idées complexes. Par exemple, quand on parle de thinking token, ce n’est pas qu’un modèle « pense » réellement : il écrit simplement, mot par mot, un raisonnement qu’un humain pourrait formuler. C’est une façon de décrire le processus, non une réalité.
Bien entendu, ce genre de termes est parfois utilisé pour rendre les technologies plus séduisantes ; c’est ce que font certaines startups ou entreprises.
Malgré tout, ces métaphores ont leur intérêt. Les concepts complexes sont plus faciles à comprendre quand on les explique simplement, et les métaphores peuvent aider à cette simplification. Pour moi, parler de reasoning, par exemple, rend le concept sous-jacent plus accessible et plus intuitif.
C’est quand on abuse de ces métaphores que les problèmes surgissent. Le papier duquel je suis partie était, à mon sens, inutilement compliqué : il est en cela assez caractéristique du monde académique, où l’on emploie des termes techniques ou biologiques que même les chercheurs en neurosciences ne comprennent pas toujours. On ne peut pas prétendre savoir comment fonctionne le cerveau, ni affirmer que nos modèles doivent forcément reproduire ce fonctionnement. C’était aller un peu trop loin.
En général, les métaphores et les raccourcis restent très pratiques — tant qu’on garde à l’esprit leurs limites.
Quel est votre point de vue dans le débat entre ceux qui pensent que le scaling a atteint ses limites et ceux qui estiment au contraire qu’il continuera à tenir ses promesses ?
Il y a un ralentissement très net.
La courbe de progression des modèles ne croît que logarithmiquement en fonction du temps et des avancées technologiques ; les rendements sont décroissants. On a constaté que les alimenter avec toujours davantage de données venues d’Internet ne rend pas les modèles meilleurs sur des tâches spécifiques. Du reste, on remarque aussi un problème lié à la qualité des données : beaucoup de données générales ne sont pas très utiles.
Avec les LLM, quand on ajoute des tâches dans la base de données d’entraînement pour en diversifier les situations et réponses-types, le modèle devient meilleur pour le traitement de ces tâches — mais cela ne veut pas dire qu’il est vraiment capable de généraliser.
Autrement dit : il ne faut pas s’attendre avec les LLM à une IA parfaite.
Avec des modèles spécialisés, on sait davantage à quoi s’attendre.
Il faut donc regarder ailleurs pour considérer de nouveaux paradigmes. En ce moment, trop d’argent et de temps sont dépensés à exploiter le système existant plutôt qu’à découvrir de nouvelles manières de faire.
C’est quand on abuse des métaphores que les problèmes surgissent.
Alexia Jolicoeur-Martineau
En mai dernier, Yann Le Cun a conseillé aux chercheurs académiques, aux étudiants souhaitant construire les modèles de demain de « ne plus travailler plus sur les LLM ». Qu’en pensez-vous ? Aujourd’hui, quels sont les différents enjeux — barrières à l’entrée, coûts — de la recherche sur les nouvelles architectures ?
Je suis d’accord avec ce que dit Yann Le Cun : en ce moment, on consacre une attention considérable aux LLM ; or, avec ceux-ci, une seule erreur dans la génération des tokens amène à l’échec.
L’industrie bâtit en ce moment des cathédrales de systèmes pour essayer de résoudre ce problème de manière superficielle sans remettre en cause le paradigme. Par exemple, une des solutions a été d’introduire artificiellement des « wait » 7 pendant la génération pour inciter le LLM à faire une pause et réfléchir. « 1+1 = wait…2 » 8.
Beaucoup ont été amenés à penser qu’il n’y avait plus rien à explorer et que l’exploitation unique du paradigme actuel des LLM nous mènerait vers l’intelligence artificielle générale.
Il n’en sera rien.
C’est pour cette raison qu’il faut toujours continuer d’essayer de découvrir de nouvelles façons de faire. Explorer ces nouvelles voies est cependant difficile, car les incitations sont faibles.
L’idée qu’il faille absolument le plus gros modèle pour atteindre son but est défaitiste. Avoir moins de ressources peut être un avantage dans la recherche pour découvrir de nouvelles façons de faire, des moyens plus efficaces. Il n’y a pas une unique manière de s’y prendre.
Pendant un an, j’étais moi aussi enthousiasmée par les LLM, mais à chaque fois que je les utilisais, sur des molécules — pour découvrir si elles pouvaient avoir des propriétés intéressantes pour les écrans de téléphones — ou dans les jeux vidéo, j’ai eu de moins bons résultats.
Mon expérience est qu’il est plus pertinent d’entraîner ses propres petits modèles pour beaucoup de situations.
Vous êtes l’unique autrice de votre article. C’est assez notable car plutôt rare en IA en ce moment ; on peut songer au papier Gemini de Google 9 où plus de 3000 auteurs sont crédités. Y-a-t-il une raison particulière pour l’avoir écrit seule ?
C’est ma femme qui m’a vraiment poussée à écrire cet article — quand elle a vu que ma courbe de citations baissait. Toutefois, lorsque les étoiles s’alignent et qu’on a une idée claire en tête, on peut dérouler le fil pour écrire seule. J’ai aussi produit un autre article important de cette manière, « Relativistic GAN » 10.
Geoffrey Hinton et Yoshua Bengio 11 ont aussi écrit en solitaire quelques-uns de leurs très bons articles.
Ce sont des idées qui leur sont venues d’une façon intense.
Quand tout va bien, l’écriture est très simple.
Sources
- Alexia Jolicoeur-Martineau, « Less is More : Recursive Reasoning with Tiny Networks », arXiv, 6 octobre 2025.
- Dans les LLM, les données sur lesquelles se base le modèle pour la génération d’une réponse sont découpées en unités fondamentales de données, les tokens. S’il s’agit d’un texte, par exemple, le découpage peut scinder un même mot en plusieurs unités (pas nécessairement syllabiques) : c’est la tokenisation. Selon ce procédé, « soleil » pourrait par exemple être découpé en « so/le/il ». Dans la génération d’une réponse — en fait, une complétion —, le modèle procède token après token ; étant donné une ébauche de complétion encore inachevée, comme une phrase tronquée, il lui adjoint le token le plus probable — la probabilité étant calculée d’après les données d’entraînement ; c’est l’inférence.
Par exemple, si l’on demande « Quelle météo préfères-tu, ChatGPT ? » et étant donné un début de complétion « Quelle météo préfères-tu, ChatGPT ? Je préfère le », si le token « so » est associé à la plus grande probabilité, il est adjoint à la réponse : « Quelle météo préfères-tu, ChatGPT ? Je préfère le so ». Cette phrase un peu plus longue est de nouveau fournie au LLM, qui recherche le token suivant de la même façon.
- Les LLM fonctionnent avec une architecture de « réseaux de neurones ». Les neurones en question sont des unités logiques pour le « raisonnement » du modèle ; ils sont organisés en plusieurs couches, les layers. Pour la reconnaissance d’images, par exemple, les couches en entrée du raisonnement vont reconnaître des détails élémentaires de l’image (par exemple : « c’est courbe », « c’est anguleux ») ; les couches en sortie vont permettre d’identifier ce qui est représenté (« c’est une griffe », « c’est une dent », puis « c’est un chien », « c’est un oiseau »).
- Dans le domaine des LLM, on s’est aperçu que la performance du modèle — quantifié d’une certaine façon — était une fonction déterminée du volume de données utilisées et du nombre de paramètres utilisés. Cette relation empirique entre variables motive la course à des modèles plus puissants.
- Un TRM améliore sa réponse par étapes successives ; chaque étape est une « récursion ».
- Guan Wang, Jin Li, Yuhao Sun, Xing Chen et al.,« Hierarchical Reasoning Model », arXiv, 26 juin 2025.
- Alexia Jolicoeur-Martineau, « Less is More : Recursive Reasoning with Tiny Networks », op. cit.
- Plus précisément, les chercheurs explorent des techniques afin de contrôler la quantité de calcul utilisée pendant l’inférence (le test-time compute). La méthode du « wait » consiste à forcer le modèle à s’arrêter lorsqu’il a assez « réfléchi », ou au contraire à prolonger sa réflexion en ajoutant plusieurs fois le mot « wait » à sa génération lorsque celui-ci tente de conclure trop tôt.
- Gheorghe Comanici, Eric Bieber, Mike Schaekermann et al., « Gemini 2.5 : Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities », arXiv, 7 juillet 2025.
- Alexia Jolicoeur-Martineau, « The relativistic discriminator : a key element missing from standard GAN », arXiv, 10 septembre 2018.
- Geoffrey Hinton et Yoshua Bengio reçurent le prix Turing en 2018 avec Yann Le Cun ; plus haute distinction dans le domaine informatique, le prix récompensait leur travail dans le domaine de l’apprentissage profond ; celui-ci fournit aux LLM contemporains leur architecture théorique.