El artículo «Less is More: Recursive Reasoning with Tiny Networks» 1 apareció en octubre en medio de un tumulto de anuncios y desató una revolución en el ecosistema de la IA.
Mientras que las infraestructuras de la IA (chips, centros de datos) se han convertido en el centro de los debates industriales y estratégicos, objeto de inversiones colosales, este artículo firmado por Alexia Jolicœur-Martineau viene a trastocar las certezas.
Investigadora en inteligencia artificial en el Samsung SAIT AI Lab, se especializa en modelos generativos profundos y lleva una década trabajando en estos enfoques. Es conocida, en particular, por haber introducido las Relativistic GAN, una mejora de las GAN clásicas, modelos capaces de crear nuevos datos realistas a partir de un conjunto de entrenamiento, como imágenes, música o texto.
En un contexto de escasez de potencia de cálculo, todo el ecosistema observa con atención las innovaciones arquitectónicas que podrían cambiar las reglas del juego.
A diferencia de los grandes modelos de lenguaje (LLM) preentrenados que se basan en enormes corpus de datos (web, código, libros, documentos científicos), los modelos recursivos pequeños (TRM) utilizan una ingeniería más específica: supervisión profunda, recursión profunda, aumento de datos. ¿Cómo describiría las principales innovaciones de su artículo, sus funciones y los principales resultados que se derivan de ellas?
La idea de los TRM es que un modelo pequeño puede razonar de forma recursiva para actualizar su respuesta.
Un LLM, que es lo que todo el mundo utiliza hoy en día, debe generar sus respuestas un token a la vez, 2 lo que equivale a media palabra cada vez; si comete un solo error, el resto del razonamiento se ve falseado porque el error se propaga. Por ejemplo, si hace 1+1 = 3, todo el razonamiento posterior se invalida debido al 3, que propagará el error.
Al actualizar su respuesta y reflexionar recursivamente sobre ella, es posible eliminar los errores.
Si el TRM comete errores, puede volver sobre sus pasos —lo que se denomina «backtrack»— y cambiar su respuesta. Esto le permite esperar a tener una respuesta correcta y perfeccionarla antes de generarla; a diferencia de los LLM, el TRM genera su respuesta de una sola vez, y no un token a la vez.
El TRM es un modelo muy pequeño: la idea es que su carácter recursivo le permite razonar más, pero con muy pocos parámetros. Así, tiene 10.000 veces menos parámetros que un LLM clásico y es 1.000 veces más rápido, aunque las cifras son difíciles de estimar. Esto permite entrenarlo con muchos menos recursos, por lo que, indirectamente, es más ecológico.
Al ser pequeño, el modelo puede funcionar directamente en un teléfono, lo que no es posible con los LLM actuales. Hoy en día, los datos transitan por internet y se procesan en servidores externos antes de volver al usuario, por lo que la confidencialidad no está garantizada. Con un modelo pequeño que funciona en el teléfono, esta se preserva mejor y el modelo funciona incluso sin conexión.
La promesa de este cambio de paradigma también ha beneficiado a Samsung. Mi artículo se publicó durante las vacaciones en Corea del Sur; al regresar de las vacaciones, tras su publicación, la capitalización bursátil de Samsung se disparó un 10 %, lo que equivale a unos 60.000 millones de dólares.
El TRM tiene 10.000 veces menos parámetros que un LLM clásico y es 1.000 veces más rápido.
Alexia Jolicoeur-Martineau
Su artículo sugiere que, para ciertas tareas que requieren un razonamiento exigente, se puede cambiar drásticamente el tamaño del modelo —el número de capas— 3 por una dinámica de aprendizaje alternativa —supervisión profunda, recursividad profunda— y una mejor estructuración de la cantidad de cálculo utilizada para la inferencia. ¿Cuál es la idea subyacente para que esto funcione?
Los LLM ya deben utilizar tiempo de cálculo para la inferencia.
Para evitar que un error en un token penalice toda la respuesta, varias técnicas de generación exploran la posibilidad de realizar varios intentos de respuesta antes de elegir la mejor, o la que aparece con más frecuencia. En consecuencia, estos métodos utilizan más cálculo para la inferencia.
Desde este punto de vista, no cambia lo que hacen los TRM, pero estos son más pequeños, por lo que la inferencia se puede realizar en teléfonos móviles; su entrenamiento es mucho más eficiente y cuesta menos de 500 dólares.
Aunque siempre se necesitan datos de muy buena calidad, se pueden procesar muchos más datos mucho más rápidamente, ya que los modelos son mucho más pequeños y la respuesta se genera de una sola vez.
¿Se observan leyes de escala en estos modelos, 4 como es el caso de los LLM? Si es así, ¿cuáles son las variables con las que se puede jugar para obtener herramientas más eficaces? ¿Hay que proporcionar más datos al modelo o hacer que reelabore sus respuestas un mayor número de veces?
El número de recursiones necesarias 5 depende de la dificultad de las tareas: las tareas más fáciles requerirán menos recursiones, pero las más difíciles requerirán más.
La idea sería, por tanto, alcanzar un cierto equilibrio entre ambas.
Los datos, tanto en cantidad como en calidad, siguen siendo fundamentales en la ecuación, ya que cuanto más mejora el modelo, menos recursividad se necesita. Sin embargo, cuando el problema se vuelve realmente difícil, puede ser útil reflexionar más tiempo.
Usted prueba su modelo con problemas como completar cuadros de sudoku o benchmarks de razonamiento y puede optimizar la arquitectura del modelo en función de la tarea. Con los LLM, creíamos que podríamos acabar con un mundo en el que un modelo se especializaba en una tarea específica. ¿Estamos volviendo a ese mundo de modelos especializados por tarea o de arquitecturas especializadas para diferentes tipos de tareas?
Hay que encontrar un equilibrio entre ambos.
Con los LLM, nos hemos inclinado demasiado hacia una sola dirección porque el paradigma anterior era el de la especialización. Tomamos uno de estos modelos y nos dimos cuenta de que podía funcionar mejor en todas las tareas; sin embargo, este paradigma requiere tantos recursos que estamos hablando de miles de millones de dólares para mejoras marginales cada vez más pequeñas. Me parece excesivo.
Lo que intento destacar son modelos más pequeños y sencillos, que serán tan eficaces como los LLM en tareas especializadas. A continuación, se podría pensar en conceptualizar un modelo más general que eligiera el modelo especializado que se ejecutaría para una tarea.
Mi artículo se publicó durante las vacaciones en Corea del Sur; al regresar de las vacaciones, tras su publicación, la capitalización bursátil de Samsung se disparó un 10 %, lo que equivale a unos 60.000 millones de dólares.
Alexia Jolicoeur-Martineau
Podemos pensar, por ejemplo, en Windows: este incluye subprogramas; incluso sin conocerlos en detalle, el programa más general que los gestiona tiene la capacidad de utilizarlos y explotar sus resultados para razonar.
Los avances en su campo de investigación son rápidos. De hecho, está mejorando significativamente los resultados de un artículo publicado en junio de 2025. 6 ¿Qué futuro ve para los Tiny Recursive Models? En dos o tres artículos sobre el tema, ¿qué resultados se podrían esperar?
Las cosas deberían ir rápido: creo que actualmente hay mucho interés en los TRM y sigo trabajando en ellos para nuevas aplicaciones.
Cabe esperar que se utilicen en todo tipo de ámbitos, por ejemplo, en materiales o moléculas.
Esto es muy importante, especialmente para Samsung, ya que las pantallas de los teléfonos utilizan mucha investigación en biología molecular para obtener una mejor luminosidad, por ejemplo.
En términos más generales, la robótica móvil se beneficiará de ello: con los LLM, los modelos son demasiado grandes y el tiempo de latencia es demasiado importante: al utilizarlos, el robot tendría movimientos entrecortados.
Es necesario disponer de modelos más rápidos y pequeños para poder crear robots que se muevan de forma continua sin dificultades.
Su trabajo invita a matizar la analogía biológica que a menudo se utiliza para justificar ciertas decisiones de diseño en IA, en particular las del artículo en el que se basó para su propio trabajo. ¿Cómo percibe el uso de estas metáforas y, en general, del vocabulario antropomórfico como «thinking tokens», «reasoning» o «hallucinating» cuando se trata de describir el comportamiento de los modelos?
Creo que las metáforas son atajos, imperfectos, sin duda, pero a menudo útiles para comprender ideas complejas. Por ejemplo, cuando hablamos de «thinking token», no es que un modelo «piense» realmente: simplemente escribe, palabra por palabra, un razonamiento que un humano podría formular. Es una forma de describir el proceso, no una realidad.
Por supuesto, este tipo de términos se utilizan a veces para hacer que las tecnologías resulten más atractivas; es lo que hacen algunas startups o empresas.
A pesar de todo, estas metáforas tienen su interés. Los conceptos complejos son más fáciles de entender cuando se explican de forma sencilla, y las metáforas pueden ayudar a esta simplificación. Para mí, hablar de razonamiento, por ejemplo, hace que el concepto subyacente sea más accesible e intuitivo.
Los problemas surgen cuando se abusa de estas metáforas. El artículo del que partí era, en mi opinión, innecesariamente complicado: en este sentido, es bastante característico del mundo académico, donde se utilizan términos técnicos o biológicos que ni siquiera los investigadores en neurociencia siempre comprenden. No podemos pretender saber cómo funciona el cerebro, ni afirmar que nuestros modelos deben reproducir necesariamente ese funcionamiento. Eso era ir demasiado lejos.
En general, las metáforas y los atajos siguen siendo muy prácticos, siempre y cuando se tengan en cuenta sus limitaciones.
¿Cuál es su punto de vista en el debate entre quienes piensan que el escalado ha alcanzado sus límites y quienes, por el contrario, consideran que seguirá cumpliendo sus promesas?
Hay una desaceleración muy clara.
La curva de progresión de los modelos solo crece logarítmicamente en función del tiempo y los avances tecnológicos; los rendimientos son decrecientes. Se ha observado que alimentarlos con cada vez más datos procedentes de internet no mejora los modelos en tareas específicas. Por otra parte, también se observa un problema relacionado con la calidad de los datos: muchos datos generales no son muy útiles.
Con los LLM, cuando se añaden tareas a la base de datos de entrenamiento para diversificar las situaciones y las respuestas típicas, el modelo mejora en el procesamiento de esas tareas, pero eso no significa que sea realmente capaz de generalizar.
En otras palabras: no hay que esperar que los LLM proporcionen una IA perfecta.
Con los modelos especializados, sabemos mejor qué esperar.
Por lo tanto, hay que mirar a otra parte para considerar nuevos paradigmas. En este momento, se gasta demasiado dinero y tiempo en explotar el sistema existente en lugar de descubrir nuevas formas de hacer las cosas.
Los problemas surgen cuando se abusa de las metáforas.
Alexia Jolicoeur-Martineau
El pasado mes de mayo, Yann Le Cun aconsejó a los investigadores académicos y a los estudiantes que desean construir los modelos del futuro que «dejen de trabajar en los LLM». ¿Qué opina al respecto? En la actualidad, ¿cuáles son los diferentes retos —barreras de entrada, costos— de la investigación sobre las nuevas arquitecturas?
Estoy de acuerdo con lo que dice Yann Le Cun: en este momento, se presta mucha atención a los LLM; sin embargo, con ellos, un solo error en la generación de tokens conduce al fracaso.
La industria está construyendo actualmente sistemas gigantescos para intentar resolver este problema de forma superficial sin cuestionar el paradigma. Por ejemplo, una de las soluciones ha sido introducir artificialmente «esperas» 7 durante la generación para incitar al LLM a hacer una pausa y reflexionar. «1+1 = espera…2». 8
Muchos han llegado a pensar que ya no hay nada más que explorar y que la explotación exclusiva del paradigma actual de los LLM nos llevará a la inteligencia artificial general.
No será así.
Por eso hay que seguir intentando descubrir nuevas formas de hacer las cosas. Sin embargo, explorar estas nuevas vías es difícil, ya que los incentivos son escasos.
La idea de que se necesita necesariamente el modelo más grande para alcanzar el objetivo es derrotista. Tener menos recursos puede ser una ventaja en la investigación para descubrir nuevas formas de hacer las cosas, medios más eficaces. No hay una única manera de hacerlo.
Durante un año, yo también me entusiasmé con los LLM, pero cada vez que los utilizaba, ya fuera en moléculas —para descubrir si podían tener propiedades interesantes para las pantallas de los teléfonos— o en videojuegos, obtenía resultados menos satisfactorios.
Mi experiencia es que, en muchas situaciones, es más pertinente entrenar tus propios modelos pequeños.
Es la única autora de tu artículo. Esto es bastante notable, ya que es raro en IA en este momento; pensemos, por ejemplo, en el artículo Gemini de Google, 9 en el que aparecen más de 3.000 autores. ¿Hay alguna razón en particular por la que lo haya escrito usted sola?
Fue mi esposa quien realmente me animó a escribir este artículo, cuando vio que mi curva de citas estaba bajando. Sin embargo, cuando las estrellas se alinean y tienes una idea clara en mente, puedes desarrollar el hilo para escribir solo. También he producido otro artículo importante de esta manera, «Relativistic GAN». 10
Geoffrey Hinton y Yoshua Bengio 11 también han escrito en solitario algunos de sus mejores artículos.
Son ideas que les surgieron de forma intensa.
Cuando todo va bien, escribir es muy sencillo.
Notas al pie
- Alexia Jolicoeur-Martineau, «Less is More: Recursive Reasoning with Tiny Networks», arXiv, 6 de octubre de 2025.
- En los LLM, los datos en los que se basa el modelo para generar una respuesta se dividen en unidades fundamentales de datos, los tokens. Si se trata de un texto, por ejemplo, la división puede dividir una misma palabra en varias unidades (no necesariamente silábicas): esto es la tokenización. Según este proceso, «sol» podría dividirse, por ejemplo, en «so/l». En la generación de una respuesta, el modelo procede token tras token; dada una finalización aún incompleta, como una frase truncada, le añade el token más probable, cuya probabilidad se calcula a partir de los datos de entrenamiento; esto es la inferencia.
Por ejemplo, si se pregunta «¿Qué clima prefieres, ChatGPT?» y se da un comienzo de completado «¿Qué clima prefieres, ChatGPT? Prefiero el», si el token «so» se asocia con la mayor probabilidad, se añade a la respuesta: «¿Qué clima prefieres, ChatGPT? Prefiero el so». Esta frase un poco más larga se vuelve a proporcionar al LLM, que busca el siguiente token de la misma manera.
- Los LLM funcionan con una arquitectura de «redes neuronales». Las neuronas en cuestión son unidades lógicas para el «razonamiento» del modelo; están organizadas en varias capas, o layers. Para el reconocimiento de imágenes, por ejemplo, las capas de entrada del razonamiento reconocerán detalles elementales de la imagen (por ejemplo: «es curvo», «es anguloso»); las capas de salida permitirán identificar lo que se representa («es una garra», «es un diente», luego «es un perro», «es un pájaro»).
- En el ámbito de los LLM, se ha observado que el rendimiento del modelo —cuantificado de cierta manera— era una función determinada del volumen de datos utilizados y del número de parámetros empleados. Esta relación empírica entre variables motiva la carrera por desarrollar modelos más potentes.
- Un TRM mejora su respuesta por etapas sucesivas; cada etapa es una «recursividad».
- Guan Wang, Jin Li, Yuhao Sun, Xing Chen et al.,«Hierarchical Reasoning Model», arXiv, 26 de junio de 2025.
- Alexia Jolicoeur-Martineau, «Less is More: Recursive Reasoning with Tiny Networks», op. cit.
- Más concretamente, los investigadores están explorando técnicas para controlar la cantidad de cálculo utilizado durante la inferencia (el test-time compute). El método «wait» consiste en obligar al modelo a detenerse cuando ha «reflexionado» lo suficiente o, por el contrario, prolongar su reflexión añadiendo varias veces la palabra «espera» a su generación cuando intenta llegar a una conclusión demasiado pronto.
- Gheorghe Comanici, Eric Bieber, Mike Schaekermann et al., «Gemini 2.5 : Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities», arXiv, 7 de julio de 2025.
- Alexia Jolicoeur-Martineau, «The relativistic discriminator : a key element missing from standard GAN», arXiv, 10 de septiembre de 2018.
- Geoffrey Hinton y Yoshua Bengio recibieron el Premio Turing en 2018 junto con Yann Le Cun. Este premio, el más importante en el campo de la informática, reconoció su trabajo en el campo del aprendizaje profundo, que proporciona la arquitectura teórica a los LLM contemporáneos.