Archivos y discursos

11 de marzo de 2026 • Poderes de la IA

IA: el modelo económico de ChatGPT se basa en las alucinaciones

Mostrar cosas falsas no es un defecto de la IA: es una de sus características estructurales.

Pero para OpenAI, la empresa que lanzó ChatGPT, esto no es realmente un problema.

La promesa de la IA se está transformando —y su modelo económico se está precisando—.

Autor: Victor Storchan
Portada: © SIPA

Image à partir d'une photographie de Sam Altman en 2026. © SIPA/AP

El año pasado, alrededor de 1.800 millones de personas utilizaron la IA en todo el mundo, de las cuales entre 550 y 600 millones lo hicieron a diario.

Ahora que cientos de millones de personas recurren a los numerosos chatbots disponibles de forma gratuita (ChatGPT, Claude, Gemini, Le Chat) para formular sus consultas, la cuestión de las alucinaciones, es decir, las respuestas erróneas desde el punto de vista factual que producen los modelos, ha pasado a ocupar un lugar destacado en el debate público. Bien identificadas por el público en general, hoy en día ocupan un lugar central en las críticas dirigidas a los sistemas de IA y, más ampliamente, en los debates sobre su fiabilidad. ¹

A medida que los sistemas de IA se utilizan para tareas más complejas y de mayor duración, en contextos más amplios, aparece una limitación estructural para verificar un número creciente de afirmaciones fácticas distintas, cada una de las cuales debería examinarse por separado. En resumen, la verificación humana no se adapta a la escala y los modelos incapaces de verificar por sí mismos sus respuestas y razonamientos no pueden ser totalmente fiables. Desde esta perspectiva, hacer que los sistemas de IA sean verificables se convierte en una condición para superar un nuevo umbral de capacidad.

En un artículo publicado el 5 de septiembre de 2025, ² es decir, entre el lanzamiento de GPT-5 en agosto de 2025 y antes del de GPT-5.1 y GPT-5.2, OpenAI quiso acabar con el mito de un modelo infalible: las alucinaciones son inherentes a la arquitectura estadística de los LLM.

Para una de las mayores empresas en el campo de los LLM, la declaración solo socava aparentemente su propio trabajo. Presentándose a la vez como una contribución técnica y como una toma de posición institucional, el artículo de OpenAI no sabotea los LLM al reconocer en ellos un límite insuperable: invita a reformular su uso.

En la era de los sistemas agénticos, al estar el LLM acoplado a medios externos como los sistemas de búsqueda en línea, ya no se trata de crear una herramienta infalible en sus respuestas. La reorientación de los LLM hacia una herramienta de trabajo, y no un sustituto de las enciclopedias, debe ir acompañada de una revisión de los benchmarks sobre los que se evalúan, así como de la arquitectura de estos mismos modelos.

Las instrucciones proporcionadas a los LLM, así como los criterios seleccionados para los benchmarks, premian de hecho una forma de seguridad ficticia: se privilegia que brinden una respuesta, aunque sea falsa, frente a la admisión de la ignorancia. Modificar estas normas solo es posible revisando las promesas que han impulsado el crecimiento de la IA, que el artículo presenta como líneas de fuga.

Contra el sueño de una escalada que resolvería todas las dificultades de los modelos actuales, los autores demuestran, mediante consideraciones estadísticas, que los errores no pueden eliminarse aumentando el tamaño del corpus de entrenamiento. Por lo tanto, el próximo frente no estaría tanto en el lado de la potencia de cálculo como en una forma adecuada de hacer que los LLM sean capaces de dudar.

En OpenAI, hacemos todo lo posible para que nuestros sistemas de IA sean más útiles y fiables. Pero, por mucho que los modelos de lenguaje ganen en competencia, presentan un problema aún sin solución: las alucinaciones. Las alucinaciones son respuestas falsas que, sin embargo, se proporcionan a los usuarios con total seguridad.

Según nuestro nuevo estudio, los modelos alucinan porque los entrenamientos y evaluaciones clásicos premian más las respuestas aleatorias que el reconocimiento de la incertidumbre.

Nos referimos al artículo científico publicado por los investigadores de OpenAI ³ cuando mencionamos el documento en los comentarios siguientes.

ChatGPT no es inmune a las alucinaciones. Aunque GPT-5 supone un claro avance con respecto a sus predecesores en este ámbito, y en particular en las tareas de razonamiento⁠, a veces es víctima de ellas. Las alucinaciones siguen siendo un problema central de los grandes modelos de lenguaje, pero estamos haciendo todo lo posible para reducirlas.

El progreso de los modelos en los benchmarks dominantes no predice su comportamiento ante hechos poco frecuentes: esto es precisamente lo que ilustra la trayectoria de la serie GPT-5.

La arquitectura de uso de la serie GPT-5 se basa en el acceso a herramientas externas, en particular sistemas de búsqueda en línea, que les permiten consultar fuentes de información actualizadas y extraer los elementos pertinentes para generar una respuesta. En este contexto, la memorización paramétrica de hechos individuales pasa a ser menos importante que la capacidad de localizar, seleccionar y explotar fuentes fiables: dado que la codificación exhaustiva de los hechos es precisamente lo que miden los benchmarks denominados «de factualidad», no es de extrañar que su puntuación en estos sea más baja.

Entre los benchmarks de factualidad, SimpleQA Verified, ⁴ por ejemplo, contiene 1.000 preguntas factuales sobre ámbitos como la ciencia, el arte, la geografía, la política, etc. Tomado de forma aislada, es una medida limitada del rendimiento global de un modelo, ya que evalúa sobre todo la capacidad de memorización de los datos de preentrenamiento. Por lo tanto, SimpleQA Verified no se considera un benchmark central para seguir la evolución de las capacidades de los modelos a lo largo del tiempo. Sin embargo, es valioso por una razón específica: se centra exactamente en la clase de hechos que la teoría del artículo científico producido por los equipos de ChatGPT predice que son irremediablemente propensos a las alucinaciones.

Las puntuaciones de los diferentes modelos de OpenAI a partir de ChatGPT ilustran esta pérdida de memoria, en beneficio de tareas más complejas. En SimpleQA Verified, GPT5 tiene una puntuación del 51 %, frente al 45 % de GPT5.4 o el 39 % de GPT5.2. Paralelamente, en las pruebas de rendimiento de tareas de ingeniería de software como SWE-Bench Pro, GPT5.2 alcanza un 57,7 % frente al 41,8 % de GPT5. ⁵

¿Qué son las alucinaciones?

Las alucinaciones son afirmaciones plausibles, pero falsas, que hacen los modelos de lenguaje.

Pueden aparecer en contextos inesperados, por ejemplo, en respuestas a preguntas muy sencillas. Por ejemplo, cuando le preguntamos a un chatbot muy popular el título de la tesis de Adam Tauman Kalai (uno de los autores de nuestro estudio), nos proporcionó con seguridad tres títulos diferentes, todos ellos falsos. Cuando le preguntamos la fecha de cumpleaños de Adam, también nos dio tres fechas diferentes, todas ellas falsas.

El artículo distingue dos causas estructuralmente diferentes de alucinación, y esta distinción aclara directamente por qué los modelos de razonamiento —modelos de lenguaje desarrollados desde 2025, diseñados para descomponer problemas complejos en trazas más pequeñas— solo constituyen una solución parcial.

La primera categoría, los errores de modelo deficiente (poor-model errors en el artículo), se produce cuando la arquitectura o el modelo es estructuralmente incapaz de representar el concepto solicitado. El ejemplo canónico del artículo es el recuento de letras: DeepSeek-V3 no consigue contar las «D» en «DEEPSEEK» porque el modelo opera con tokens (D/EEP/SEE/K) ⁶ y no con caracteres individuales: la limitación es entonces representacional y no informativa, ya que el modelo podría conocer la respuesta si su representación interna fuera diferente. Así, DeepSeek-R1, el modelo de razonamiento, resuelve este problema generando una cadena de pensamiento que deletrea explícitamente «D-E-E-P-S-E-E-K», convirtiendo una tarea implícita en una tarea procedimental. En este contexto, como en cualquier tarea cuya respuesta pueda derivarse de la enunciada mediante una serie de pasos explícitos, aritméticos, lógicos, códigos o demostraciones matemáticas, el razonamiento y el aprendizaje reforzado con recompensas verificables ⁷ son eficaces.

La segunda categoría de alucinaciones, las que se refieren a hechos arbitrarios (arbitrary-fact hallucination), es de naturaleza fundamentalmente diferente. Se produce cuando la respuesta correcta no puede inferirse mediante un razonamiento a partir de la afirmación. Esta respuesta debe entonces recuperarse de los «pesos» del modelo, donde se ha codificado o no durante el preentrenamiento.

Para estos hechos, la cadena de razonamiento no produce ningún cálculo: genera una justificación en lenguaje natural cuyas premisas fácticas provienen de los pesos del modelo.

El entrenamiento en cuestión

Si las alucinaciones son tan difíciles de eliminar, es en parte porque nuestros métodos de evaluación actuales se basan en incentivos inadecuados. Es cierto que las evaluaciones no generan directamente alucinaciones, pero la mayoría mide el rendimiento de los modelos de tal manera que estos se ven animados a hacer suposiciones en lugar de admitir que no están seguros de sus respuestas.

Para entenderlo mejor, imaginemos que tienes que responder a un cuestionario de opción múltiple. Si no sabes la respuesta a una pregunta, puedes intentar responder al azar y, con un poco de suerte, obtener el punto. Sin embargo, si no respondes, es seguro que obtendrás un cero. Lo mismo ocurre cuando solo se evalúa la precisión de los modelos, es decir, el porcentaje de preguntas a las que dan la respuesta correcta. Por lo tanto, se les anima a dar una respuesta al azar en lugar de admitir su ignorancia.

Pongamos otro ejemplo. Imaginemos que un usuario le pregunta a un modelo de lenguaje la fecha de cumpleaños de otra persona y que el modelo no tiene ni idea de la respuesta. Al anunciar «el 10 de septiembre», tiene 1 posibilidad entre 365 de acertar. Si responde «No lo sé», tiene la seguridad de dar la respuesta incorrecta. En una prueba con miles de preguntas, el modelo que hace suposiciones acabará obteniendo un rendimiento superior al de un modelo más prudente que admite no saber algunas respuestas.

En las preguntas que solo admiten una respuesta correcta, las posibles respuestas se dividen en tres categorías: respuestas correctas, errores y ausencias de respuesta. Sin embargo, abstenerse de responder es una muestra de humildad, uno de los valores fundamentales de OpenAI⁠. La mayoría de las clasificaciones dan prioridad a la exactitud, sin tener en cuenta que los errores son peores que las abstenciones. La especificación de los modelos⁠ indica que es preferible admitir la incertidumbre o pedir aclaraciones antes que dar con seguridad información que puede ser inexacta.

Para ver un ejemplo concreto, tomemos la evaluación SimpleQA extraída de la ficha del sistema GPT5⁠.

En términos de exactitud, el modelo OpenAI o4-mini, más antiguo, es ligeramente más eficaz. Sin embargo, su tasa de errores (y, por lo tanto, de alucinaciones) es mucho más alta. Las hipótesis estratégicas mejoran la exactitud en caso de incertidumbre, pero también aumentan los errores y las alucinaciones.

La mayoría de las comparaciones establecen una media basada en decenas de evaluaciones centrándose en un indicador: la precisión. Al hacerlo, pasan por alto elementos importantes. En las evaluaciones más sencillas, como SimpleQA, algunos modelos alcanzan una precisión cercana al 100 % y, por lo tanto, eliminan las alucinaciones. Sin embargo, en evaluaciones más complejas y en situaciones reales, la precisión no puede alcanzar el 100 %, ya que es imposible responder a ciertas preguntas por falta de información o de capacidad de reflexión (modelos pequeños) o debido a ambigüedades que deben resolverse.

Sin embargo, las evaluaciones que solo se centran en la precisión siguen siendo mayoritarias en las clasificaciones y fichas de sistema de los modelos, lo que empuja a los desarrolladores a crear modelos que prefieren las hipótesis a la abstención. Esta es una de las razones por las que, aunque los modelos ganan en sofisticación, siguen alucinando en lugar de explicar que no saben responder.

Un mejor sistema de evaluación

Existe una solución sencilla: penalizar más los errores que la incertidumbre y recompensar parcialmente las incertidumbres anunciadas de forma adecuada. En realidad, esta idea no es nada nueva. Desde hace mucho tiempo, algunas pruebas estandarizadas puntúan negativamente las respuestas incorrectas y otorgan una puntuación parcialmente positiva en ausencia de respuesta para desalentar las respuestas aleatorias. Además, varios grupos de investigación han estudiado evaluaciones que podrían tener en cuenta la incertidumbre y la calibración.

El concepto de «calibración» se refiere aquí a la capacidad de un modelo para hacer coincidir el nivel de confianza que atribuye a una respuesta con la probabilidad real de que dicha respuesta sea correcta. Así, un modelo bien calibrado expresará un alto nivel de confianza solo cuando sus respuestas sean efectivamente correctas, y un nivel de confianza más bajo en casos de incertidumbre. El documento de OpenAI recuerda un hecho conocido: un modelo básico después del preentrenamiento ⁸ —fase del aprendizaje automático en la que el LLM se entrena con un gran conjunto de datos para una tarea específica— está mejor calibrado que después del postentrenamiento, fase en la que el modelo aprende a seguir instrucciones, mejora sus capacidades agenciales, resuelve tareas, razona sobre contextos largos, etc.

Por lo tanto, la calibración es un aspecto de una motivación más amplia que tiene como objetivo comprender lo que Anthropic denomina la honestidad de los modelos de IA, un concepto que agrupa varias dimensiones:

-Veracidad (truthfulness): ¿proporciona el sistema de IA información objetivamente exacta, en particular identificando, utilizando y evaluando correctamente las fuentes?

-Calibración: ¿las probabilidades predichas por la IA corresponden con las frecuencias reales de ocurrencia?

-Autoconocimiento (self-knowledge): ¿saben los sistemas de IA lo que hacen y pueden hacer predicciones fiables sobre su propio comportamiento y razonamiento?

-Explicabilidad (explainability): ¿revelan los sistemas de IA su proceso de razonamiento de forma completa y fiel?

-Ausencia de engaño (non-deceptiveness): ¿se puede garantizar que los sistemas de IA no aprendan a mentir, por ejemplo, cuando los datos sobre las preferencias humanas fomentan errores sistemáticos o recompensan más las ideas falsas pero agradables?

Para nosotros, la solución está en otra parte. No basta con añadir algunas pruebas adicionales que tengan en cuenta la incertidumbre. Es necesario revisar directamente las evaluaciones basadas en la exactitud más utilizadas para desalentar las hipótesis. Si las grandes clasificaciones siguen recompensando las hipótesis acertadas, los modelos seguirán aprendiendo a adivinar. Por el contrario, la corrección de las clasificaciones puede ampliar la adopción de técnicas de reducción de alucinaciones, ya sean nuevas o procedentes de investigaciones más antiguas.

El artículo de OpenAI destaca que el informe AI Index 2025 ⁹ indica que los benchmarks dedicados a la evaluación de las alucinaciones tienen dificultades para imponerse como referencias en la industria, por las razones estructurales aquí descritas.

Por qué la predicción de la siguiente palabra genera alucinaciones

Hemos visto por qué las alucinaciones son tan difíciles de eliminar, pero no de dónde provienen estos errores fácticos tan específicos. Si lo pensamos bien, los grandes modelos preentrenados rara vez cometen otros tipos de errores, como faltas de ortografía o errores tipográficos. La diferencia radica en la lógica que se esconde detrás de los datos.

Los modelos de lenguaje aprenden primero a través de una fase de preentrenamiento, un proceso que consiste en predecir la siguiente palabra dentro de una enorme cantidad de texto. En esta fase, a diferencia de lo que ocurre en los problemas clásicos de machine learning, no hay una etiqueta «verdadero/falso» asociada a cada afirmación. El modelo solo ve ejemplos positivos de formulaciones naturales y, por lo tanto, debe estimar la distribución global del lenguaje.

Es dos veces más difícil distinguir entre afirmaciones válidas y no válidas sin ejemplos etiquetados de afirmaciones no válidas. Pero incluso con las etiquetas, algunos errores siguen siendo inevitables. Para comprender bien las razones, basémonos en una nueva analogía. En el campo del reconocimiento de imágenes, el etiquetado de millones de fotos de gatos y perros permite a los algoritmos clasificarlas de forma fiable. Imaginemos que, en lugar de etiquetar cada foto según su tema (perro o gato), indicamos la fecha de cumpleaños del animal. Dado que estas fechas son aleatorias, esta tarea siempre generaría errores, independientemente del grado de sofisticación del algoritmo.

Desde un punto de vista histórico, el reconocimiento de imágenes es uno de los primeros campos en los que se desarrolló el aprendizaje automático. A partir del aprendizaje con un corpus de imágenes, acompañadas de etiquetas que identificaban cada una de ellas, se trataba de clasificar correctamente otras ilustraciones que no figuraban en los datos de entrenamiento. Por ejemplo, dada una base de datos de imágenes de perros y gatos con la que se entrenó el LLM, este debía identificar correctamente —como foto de gato o de perro— otras ilustraciones que no procedían del corpus de aprendizaje. Dado que la imagen de un gato o un perro no proporciona ninguna información sobre su fecha de cumpleaños, un modelo entrenado con un corpus de imágenes en el que dicha fecha se asociara, como etiqueta, a cada foto, no podría inferirla de forma fiable para ilustraciones que no figuran en el corpus de entrenamiento. Por el contrario, el reconocimiento de la identidad de un animal —perro, gato u otro— se basa en la morfología, diferente para cada una de estas especies.

Lo mismo ocurre con el preentrenamiento. La ortografía y la organización de los paréntesis siguen una lógica. Por lo tanto, los errores se eliminan a medida que aumenta el volumen de datos. Por el contrario, los hechos aleatorios cuya frecuencia es baja, como la fecha de cumpleaños de un animal, no pueden predecirse mediante ninguna lógica y, por lo tanto, generan alucinaciones.

Consideremos un modelo que no dispone de una herramienta de motor de búsqueda, es decir, de la capacidad de realizar búsquedas en internet o en bases de datos ad hoc. El documento de OpenAI explica que la tasa de alucinación de este modelo se reduce asintóticamente por la masa faltante, la probabilidad bajo la distribución real de encontrar un hecho ausente en el corpus de entrenamiento. Esta masa faltante no se puede observar directamente, pero la técnica de Good-Turing ¹⁰ garantiza que se aproxima con gran probabilidad a la tasa de singletons, es decir, la fracción de ejemplos de entrenamiento que solo aparecen una vez. Estos singletons no son en sí mismos hechos alucinados ni la causa de las alucinaciones: son un estimador de la masa de hechos completamente ausentes del entrenamiento, en los que el modelo necesariamente fallará en el momento de la inferencia.

La ley de Zipf garantiza que este mínimo nunca convergerá hacia cero con el tamaño del corpus: en cualquier corpus textual grande —los modelos de tamaño medio se entrenan actualmente con 30 billones de tokens—, la frecuencia de las entidades sigue una ley de potencia. En otras palabras, si consideramos la n-ésima palabra más común del texto, su frecuencia de aparición (número de apariciones de palabras / número de palabras del texto) es del orden de 1/n^s, con s positivo. En consecuencia, un pequeño número de hechos del mundo real, como «Einstein es el padre de la teoría de la relatividad» o «París es la capital de Francia», aparecen millones de veces en el corpus, mientras que la gran mayoría de los hechos solo aparecen una vez, si es que aparecen.

Esta distribución se denomina «cola larga»: si clasificamos por orden decreciente los hechos que figuran en el corpus, según su número de apariciones, para luego trazar la curva del número de apariciones por número de posición, la gran mayoría de estos hechos, que aparecen muy raramente, forman una larga cola delgada. Sin embargo, es precisamente sobre estos hechos poco presentes en los datos —si es que aparecen— sobre los que el modelo va a alucinar.

Multiplicar el tamaño de los datos de entrenamiento por n solo reduce la masa faltante por un factor polinómico n^s (s positivo) y no exponencial (a^n, con a positivo). En consecuencia, la alucinación no desaparece con el cambio de escala: la cantidad de datos sobre los que el modelo no proporciona una respuesta errónea es mayor, pero este vuelve a alucinar un poco más adelante en la cola de distribución mencionada anteriormente.

Nuestro análisis explica los tipos de alucinaciones que resultan de la predicción de la siguiente palabra. En teoría, las nuevas etapas posteriores al preentrenamiento deberían poder eliminarlas, pero hoy en día no es así por las razones descritas en la sección anterior.

Este fenómeno se debe, en particular, al hecho de que las etapas posteriores al entrenamiento, especialmente el aprendizaje por refuerzo, ya no optimizan directamente la predicción del siguiente token. Más bien buscan maximizar una función de recompensa que aproxima la calidad percibida de una respuesta: su utilidad, coherencia, seguridad y conformidad con las instrucciones. Este cambio de objetivo puede mejorar el comportamiento general del modelo, pero no garantiza necesariamente una mejor restitución de hechos raros o arbitrarios, que depende sobre todo del conocimiento paramétrico adquirido durante el preentrenamiento. Los modelos de razonamiento con recompensas verificables, como o3 y DeepSeek-R1, eluden parcialmente este problema en los ámbitos con verificación automática, como las matemáticas o la codificación.

Ya se han publicado evaluaciones centradas en las alucinaciones. Sin embargo, una buena evaluación tiene poco efecto después de cientos de evaluaciones clásicas basadas en la exactitud que penalizan la humildad y premian las hipótesis.

En cambio, conviene replantearse todos los indicadores de las evaluaciones principales para recompensar la expresión de la incertidumbre. Nuestros últimos modelos de lenguaje presentan tasas de alucinación reducidas y seguimos mejorándolos.

Notas al pie

Artificial Intelligence Index Report 2025, Stanford Institute for Human-Centered Artificial Intelligence.
Modèles de langage : aux origines des hallucinations, OpenAI, 5 de septiembre de 2025.
Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang, «Why Language Models Hallucinate», 4 de septiembre de 2025.
SimpleQA es un benchmark introducido por OpenAI. A partir de él, Google ha desarrollado SimpleQA Verified con el fin de corregir varias limitaciones importantes del conjunto de datos inicial. Véase «SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge», Google, 2025.
«Introducing GPT-5.4», OpenAI, 5 de marzo de 2026. Ver también SWE-Bench Pro : Can AI Agents Solve Long-Horizon Software Engineering Tasks ?, Scale AI, 2025.
Los tokens son las unidades básicas del texto que los modelos de IA más utilizados explotan para comprender y aprender el lenguaje.
En un aprendizaje reforzado (reinforced learning), el LLM aprende de sus experiencias gracias a un sistema de recompensas y penalizaciones. En un reinforced learning con recompensas verificables, el LLM solo es recompensado si su respuesta supera un control objetivo, como el cumplimiento de determinadas reglas o la superación de ciertas pruebas.
Fase del aprendizaje automático en la que el LLM se entrena con un gran conjunto de datos para una tarea específica.
Artificial Intelligence Index Report 2025, op. cit.
Irving John Good «The population frequencies of species and the estimation of population parameters». Biometrika, 40, 1953, pp. 237–264.

³ que de se focaliser sur l’affaiblissement des États-nations. Il faut parler du