El 7 de agosto, OpenAI lanzó su último modelo de IA, GPT-5. Muchos esperaban un momento decisivo para la empresa dirigida por Sam Altman, pero también para el desarrollo de la inteligencia artificial general. ¿Qué pasó realmente?
Se suponía que iba a ser el anuncio que consolidaría el dominio de OpenAI.
Tras meses de rumores, GPT-5 por fin estaba aquí. Antes del lanzamiento de la transmisión en directo, Sam Altman publicó una captura de pantalla de la película Rogue One, de la saga Star Wars, en la que se ve la Estrella de la Muerte perfilándose en el horizonte.
Las expectativas no hicieron más que crecer. Nada más comenzar la retransmisión en directo, Sam Altman, fiel a sí mismo, declaró: «Creemos que GPT-5 les gustará mucho más que cualquier otra IA anterior. Es útil, inteligente, rápido e intuitivo. GPT-3 era un poco como hablar con un estudiante de secundaria: destellos de genialidad, pero también mucha irritación. GPT-4 era más como hablar con un estudiante universitario… Con GPT-5, ahora es como hablar con un verdadero experto, un experto con un doctorado en cualquier campo, capaz de ayudarte a alcanzar tus objetivos».
Pero la realidad se ha impuesto a la puesta en escena.
Las reacciones han estado dominadas por las críticas. No se trata de unos pocos errores aislados: al igual que las versiones anteriores, GPT-5 comete errores absurdos, alucina y registra un rendimiento mediocre en algunos puntos de referencia. Se ha considerado confuso un nuevo mecanismo de «enrutamiento» automático. El efecto fue aún más marcado debido a las altas expectativas: mientras que GPT-4 supuso un salto cualitativo con respecto a GPT-3, GPT-5 ha resultado ser una gran decepción.
¿Qué diferencia esta reacción de los lanzamientos anteriores?
En el caso de GPT-3 y GPT-4, aún se podía hablar de avances radicales. GPT-5, por su parte, solo es ligeramente mejor que algunos competidores que ya están en el mercado y, en ocasiones, incluso obtiene peores resultados en pruebas como ARC-AGI-2. 1
No es un mal modelo, pero tampoco es la revolución anunciada.
Muchos esperaban que GPT-5 fuera una IA general, o al menos se acercara a ella. El resultado: un choque con la realidad.
¿Qué implicaciones tiene esto para OpenAI?
Son considerables.
OpenAI ya no tiene una ventaja técnica real, y es probable que GPT-5 no siga siendo el modelo más eficaz durante mucho tiempo. Varios de sus mejores talentos han abandonado la empresa, a menudo para fundar empresas competidoras, mientras que actores como Elon Musk, Anthropic o Google avanzan rápidamente. Las relaciones con Microsoft se han vuelto más tensas y la empresa, lejos de ser rentable, se ha visto obligada a bajar sus precios.
Al mismo tiempo, la idea de que los LLM están cerca de la IAG está perdiendo credibilidad, y la confianza en la empresa y su director ejecutivo se está erosionando.
OpenAI sigue teniendo un nombre conocido y una interfaz de usuario apreciada, pero ¿será eso suficiente para mantener una valoración de varios cientos de miles de millones de dólares?
Nada es menos seguro. Lógicamente, la reputación de Sam Altman debería verse seriamente empañada.
Sus declaraciones anteriores, en las que afirmaba saber cómo construir la IAG o comparaba GPT-5 con un experto de nivel de doctorado universal, parecen ahora promesas insostenibles. El contraste entre estos anuncios y las capacidades reales del producto explica en gran medida la magnitud de la decepción.
¿Cómo se posicionan los demás modelos con respecto a GPT-5?
Los demás grandes modelos presentan las mismas limitaciones.
Un ejemplo especialmente esclarecedor lo ofrece el psicólogo Jonathan Shedler, autor de uno de los artículos más leídos y citados sobre la evaluación de la eficacia de las psicoterapias.
Cuando se le preguntó a Grok sobre este mismo artículo, el resultado fue totalmente erróneo: la IA invirtió las conclusiones afirmando que la terapia psicodinámica era menos eficaz que la terapia cognitivo-conductual, cuando su artículo demostraba precisamente lo contrario.
El efecto de la terapia psicodinámica en el artículo era de 0,97. Grok afirma que es de 0,33. Sin embargo, esta cifra no aparece en ninguna parte del artículo.
Este tipo de error ilustra un problema estructural: estos sistemas dan la impresión de tener un conocimiento enciclopédico, pero se derrumban cuando se enfrentan a un campo que realmente conocemos.
¿Dónde nos deja esto en relación con la IA general?
Los LLM siguen siendo incapaces de generalizar ampliamente cuando se enfrentan a situaciones que se salen del marco de sus datos de entrenamiento.
Un estudio de la Universidad Estatal de Arizona, publicado el 5 de agosto, 2 lo acaba de confirmar, validando así lo que llevo repitiendo desde hace casi treinta años y, más recientemente, lo que Apple expuso en un artículo en junio. 3
Ya en 1998, demostré en un artículo que los perceptrones multicapa (multilayer perceptrons), los antecesores de los modelos de lenguaje actuales, no eran capaces de aplicar de forma fiable universales lingüísticos o lógicos fuera del campo de los ejemplos aprendidos. Los autores de este estudio muestran que esta limitación persiste hoy en día, a pesar de todas las innovaciones introducidas desde entonces.
Es precisamente esta incapacidad para generalizar lo que explica por qué todos los intentos de crear un modelo de nivel GPT-5, ya sean de OpenAI o de otros, están condenados al fracaso. No se trata de un accidente, sino de una limitación de principio. En otras palabras, mientras no se supere esta debilidad estructural, el rendimiento seguirá estancado, independientemente de los recursos que se inviertan.
¿Este punto muerto marca el fin del enfoque actual?
Lamento tener que repetirlo, pero ya se lo había dicho.
Nadie con integridad intelectual debería creer que el «pure scaling» —invertir más dinero y potencia de cálculo en los LLM— nos llevará a la IAG.
Después de invertir más de 500.000 millones de dólares en esta dirección, la conclusión es clara: las limitaciones cualitativas observadas en GPT-3 o GPT-4 —alucinaciones persistentes, errores de razonamiento, debilidades en la visión, dificultades para realizar tareas sencillas como contar correctamente— se repiten en GPT-5, a pesar de las ganancias marginales y el menor costo.
Hay que abandonar el mito de una IAG inminente gracias únicamente al «escalado».
La famosa fórmula según la cual «la atención es todo lo que se necesita» 4 resulta, por tanto, engañosa. El único camino realista hacia una inteligencia artificial general pasa por enfoques neurosimbólicos que integren modelos explícitos del mundo, capaces de razonar sobre representaciones duraderas, abstractas o simbólicas. Mientras no dispongamos de este tipo de sistemas, no podremos cruzar el umbral cualitativo que aún nos separa de la IAG.
Notas al pie
- ARC-AGI-2 es un punto de referencia diseñado para evaluar con precisión las capacidades de un modelo en tareas de razonamiento abstracto «fáciles para los humanos y difíciles para la IA».
- Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu, Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, Arizona State University, 5 de agosto de 2025.
- Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar, The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, junio de 2025.
- Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, Attention Is All You Need, 4 de diciembre de 2017.