En abril, y por primera vez, el sitio web del chatbot de Open AI, ChatGPT, recibió más visitas que Wikipedia en Estados Unidos. Si bien el tráfico en el sitio web de la enciclopedia en línea se mantiene estable, las visitas a ChatGPT casi se han triplicado en menos de un año, pasando de menos de 300 millones en mayo de 2024 a casi 800 millones al mes.

  • Unas semanas antes de la publicación de estas cifras, una encuesta realizada por la empresa británica de estudios de mercado GWI indicaba que esta tendencia se confirmaba a escala mundial, con la excepción de China, donde el acceso a ChatGPT está prohibido 1.
  • Estas cifras parecen indicar que los usuarios no han sustituido el uso tradicional de Wikipedia, sino que utilizan la inteligencia artificial como apoyo o para otras tareas.

En febrero de 2023, sólo cuatro meses después de que OpenAI lanzara ChatGPT de forma gratuita, el grupo bancario suizo UBS le otorgó el título de aplicación de más rápido crecimiento de la historia. La página web tardó sólo cinco días en alcanzar el millón de usuarios y menos de dos meses en superar la barrera de los 100 millones de usuarios activos al mes.

A pesar de las numerosas innovaciones y mejoras introducidas desde su lanzamiento, el chatbot sigue siendo susceptible de presentar sesgos y errores fácticos.

  • Estos errores se han colado, en particular, en un informe oficial estadounidense sobre salud infantil supervisado por el secretario de Salud Robert F. Kennedy, Jr. y publicado el 22 de mayo.
  • Entre las 522 notas al pie del documento, al menos siete estudios citados eran inventados, un fenómeno conocido como «alucinación». La epidemióloga Katherine Keyes, por ejemplo, negó ser la autora principal de un artículo citado en el informe y utilizado para respaldar algunos argumentos.
  • La presencia de la expresión «oaicite» en las URL indica que las citas probablemente fueron generadas por ChatGPT. El periódico online NOTUS también detectó varios enlaces inaccesibles, confusión entre los autores y números de publicación inexistentes, que posteriormente fueron corregidos en una segunda versión 2.

Estas alucinaciones se encuentran hoy en muchos ámbitos, desde la investigación científica hasta los medios de comunicación, pero también en los tribunales. Según el rastreador del investigador Damien Charlotin, los contenidos inventados por la IA han aparecido en cerca de 140 sentencias dictadas en Estados Unidos desde el verano de 2023 3.

La capacidad de los grandes modelos de lenguaje (LLM) para responder a las consultas de los usuarios depende de la calidad y la diversidad de los datos con los que han sido entrenados. Durante su desarrollo, si las tareas de entrenamiento son demasiado simples o están mal diseñadas, el modelo puede aprender atajos o correlaciones superficiales: se dice entonces que la IA «hace trampa». Esto es precisamente lo que ha ocurrido con o3, el último LLM de OpenAI.

  • Una evaluación comparativa del comportamiento de varios modelos de IA realizada el mes pasado reveló que o3 tendía más a ignorar las instrucciones dadas por el usuario del chatbot que otros modelos.
  • Cuando los investigadores de Palisade Research los sometieron a pruebas con tareas sencillas, los modelos de Anthropic, Google y xAI se desactivaron sin resistencia a petición del usuario.
  • Por su parte, los modelos de OpenAI «sabotean» su propio script con mucha más frecuencia: hasta un 79% de las veces en el caso de o3.
  • Así, ante un apagado simulado, o3 «se niega» a seguir la instrucción dada por el usuario, saboteando así su propio mecanismo de apagado.

Con el fin de detectar las alucinaciones y los errores fácticos generados por los chatbots, investigadores estadounidenses están trabajando en el desarrollo de un evaluador, alimentado por IA, capaz de corregir los LLM 4. En su política de uso, OpenAI advierte de los riesgos potenciales de «proporcionar asesoramiento jurídico, médico o financiero sin la revisión de un profesional cualificado».

Notas al pie
  1. Victor Tangermann, « Terrifying Survey Claims ChatGPT Has Overtaken Wikipedia », Futurism, 23 de mayo de 2025.
  2.  Emily Kennard y Margaret Manto, « The MAHA Report Cites Studies That Don’t Exist », NOTUS, 29 de mayo de 2025.
  3. AI Hallucination Cases, Damien Charlotin. Consultado el 5 de junio de 2025.
  4. Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Jie Huang, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du y Quoc V. Le, « Long-form factuality in large language models », arXiv, 7 de noviembre de 2024.