Superar los LLM: por una IA improbable

Autor: Marina Niforos, Milena Harito, Mira Mezini
Portada: Paul Klee, «Hauptweg und Nebenwege» (Camino principal y caminos laterales), 1929, Museo Ludwig
Fecha: 10 de abril de 2026

Compartir

La tecnología de la IA no es socialmente neutra; la imprenta, la radio o internet tampoco lo eran. Cada una de estas tecnologías ha facilitado y hecho más accesible el intercambio de información. Cada una de ellas redistribuyó al mismo tiempo el poder de transmitir mensajes y de ser escuchados. Cada una de ellas sufrió finalmente la concentración propia de las industrias de red: costos fijos que crean barreras de entrada, rendimientos crecientes que benefician a los actores ya establecidos, efectos de red que convierten el tamaño en una ventaja acumulativa.

Al igual que sus predecesores, los grandes modelos de lenguaje (LLM) son tecnologías culturales: sistemas que absorben, reorganizan y regeneran la expresión humana a escala planetaria. ¹

Todos estos sistemas realizan implícitamente elecciones de valores sobre lo que se hace probable, lo que se margina, lo que desaparece en un silencio estadístico. Lo que distingue a los LLM de sus predecesores es que estas elecciones están inscritas en la arquitectura incluso antes de cualquier deliberación humana.

Los LLM son, ante todo, sistemas entrenados para completar textos: ² expuestos a cantidades masivas de escritos humanos, aprenden qué palabras, qué formulaciones, qué asociaciones de ideas siguen con mayor probabilidad a tal o cual secuencia. Este aprendizaje es refinado por evaluadores humanos y procesos automatizados, pero este refinamiento opera sobre una base ya constituida.

Es aquí donde se elige deliberadamente el silencio estadístico. Alimentados por textos de internet que sobrerrepresentan el inglés y las fuentes institucionales, los LLM reproducen estructuralmente estas sobrerrepresentaciones en cada una de sus respuestas.

No por malicia, sino por su propia naturaleza.

Una tecnología que elimina sistemáticamente lo improbable empobrece el reservorio del que podría surgir el futuro.
Marina Niforos, Milena Harito y Mira Mezini

La mirada de Silicon: lo probable como pérdida

Esta visión selectiva ha recibido desde entonces un nombre: la mirada de Silicon.

Los LLM se entrenan con textos fáciles de recopilar a gran escala, es decir, el contenido que producen las poblaciones conectadas. Lo que es raro, oral, regional o analógico está estructuralmente ausente incluso antes de que el modelo comience a aprender.

Este primer desequilibrio se ve luego amplificado: las asociaciones frecuentes en los datos de entrenamiento se refuerzan como valores por defecto, de modo que conceptos como «democracia» o «justicia» vienen precargados con los supuestos culturales de los textos que más los utilizan.

Esta distorsión está documentada empíricamente. Una investigación publicada en PNAS Nexus ha cartografiado los valores culturales de cinco grandes modelos GPT en relación con datos de encuestas representativos de 107 países: cada modelo se situaba cerca de los valores de los países anglófonos, independientemente del idioma en el que se le preguntara. ³

No se trata de un sesgo lingüístico superficial. A través de este mecanismo, una parte de los valores morales de la humanidad se define como punto de partida universal.

En otras palabras, el algoritmo ya no necesita únicamente nuestros «me gusta» para aprender. Los valores que antes eran identificables —descifrables en una producción cinematográfica, reconocibles en una línea editorial— se vuelven insidiosamente predominantes, si no únicos.

Lo que está en juego va más allá de la representación equitativa de diferentes puntos de vista.

Las ideas más grandes siempre han surgido en los márgenes. El progreso de los derechos humanos o de los derechos de las mujeres es fruto de una larga lucha. Una tecnología que suprime sistemáticamente lo improbable empobrece, por tanto, el reservorio del que podría surgir el futuro: se reserva la decisión de lo que es probable.

Como escriben Francisco W. Kerche, Matthew Zook y Mark Graham en un artículo reciente: «La centralidad estadística no es neutralidad. Es la aplicación silenciosa de lo probable frente a lo posible». ⁴

Las falsas promesas del mercado

Hoy en día, un puñado de empresas concentra la casi totalidad de la capacidad de entrenamiento de los modelos de vanguardia. La infraestructura necesaria —cálculo, datos, talento— crea barreras de entrada considerables.

Es cierto que estas empresas han logrado avances científicos reales y han abierto nuevas posibilidades a cientos de millones de usuarios. Sin embargo, plantean una cuestión concreta a los actores europeos: ¿hasta qué punto pueden tomar decisiones reales sobre la infraestructura que utilizan, los valores que esta incorpora y los datos que moviliza?

La lógica comercial del desarrollo de la IA no es hostil a la diversidad cultural: le es indiferente de manera estructural.

Los datos de entrenamiento no hacen más que reflejar lo que abunda en línea. Los criterios de alineación, por su parte, se producen en inglés, en instituciones estadounidenses, según marcos normativos que no son culturalmente neutros.

La orientación similar de las mayores empresas de IA no es fruto de una conspiración entre ellas: basta con que el camino de menor resistencia conduzca, sistemáticamente, en la misma dirección. El resultado es lo que el Instituto Ada Lovelace denomina una monocultura algorítmica. ⁵

El algoritmo ya no necesita solo nuestros «me gusta» para aprender.
Marina Niforos, Milena Harito y Mira Mezini

Por una bifurcación europea

Europa se enfrenta a un dilema: ante plataformas transnacionales con sesgos arquitectónicos, no solo necesita un marco normativo —ya lo tiene—, sino también capacidad productiva: datos, modelos y normas de alineación que reflejen sus propias referencias culturales.

Hay otros caminos posibles, y ya existen.

En España, el proyecto ALIA ha producido modelos abiertos en catalán, euskera y gallego, financiados con fondos públicos. Estos demuestran que el rendimiento técnico y los derechos lingüísticos son compatibles.

En Quebec, la ley n.º 109, aprobada en diciembre de 2025, afirma que la diversidad cultural digital es un requisito normativo, no una aspiración. La creación de Mila, el Instituto Quebequense de Inteligencia Artificial, demuestra que una institución pública basada en la ciencia abierta puede apoyar una investigación de primer orden sin ceder a la lógica de las plataformas comerciales.

Estas son pruebas de que otras opciones siguen siendo posibles.

En un entorno informativo fragmentado, donde la ciencia y los datos de referencia son cuestionados, la fiabilidad de los sistemas que producen y organizan la información es una cuestión de bien público y no de mera eficiencia industrial. En la era de los modelos generativos, se trataría de construir para su entrenamiento no una enciclopedia como Wikipedia, sino una infraestructura de datos y normas arraigada en las comunidades que la utilizan.

Europa cuenta, en este sentido, con ventajas reales. La European Language Grid, con sus miles de recursos multilingües; el proyecto HPLT, con siete petabytes de datos en 80 idiomas; o incluso modelos como Poro son tantas iniciativas que demuestran que una infraestructura pública puede producir resultados de primer orden: proporciona un marco normativo que ya exige la representatividad cultural de los datos de entrenamiento. ⁶

Hay otra cosa de la que carece Europa: la voluntad de tratar la cultura como lo que siempre ha sido, no un mercado de nicho o un activo estratégico, sino el sustrato de nuestra identidad, de nuestro vínculo social, un patrimonio que pertenece a quienes lo mantienen vivo y que se empobrece cuando dejamos de transmitirlo.

Aspirados, homogeneizados, restituidos en una forma empobrecida, los datos culturales pierden progresivamente lo que constituía su valor: la singularidad, la variación, lo improbable.
Marina Niforos, Milena Harito y Mira Mezini

Una IA improbable: tres propuestas

Las propuestas que siguen se organizan en torno a tres ejes complementarios —datos, infraestructuras y modelos—, que corresponden a los tres puntos de entrada en los que una intervención pública puede corregir lo que el mercado no hará por sí mismo.

En Europa, se podrían considerar los datos de entrenamiento de alta calidad y culturalmente representativos como un bien común. Las comunidades que los originan los gestionarían disponiendo de derechos colectivos sobre su uso: el derecho a establecer normas, a exigir transparencia y a evaluar los resultados.

Una vez constituidos estos datos, el ajuste de modelos europeos y abiertos podría realizarse sobre corpus culturales de alta calidad, constituidos pacientemente y anotados por las comunidades implicadas. Se basaría en la Alliance for Language Technologies del consorcio europeo para la infraestructura digital, el proyecto High Performance Language Technologies o la European Language Grid.

Gracias a esta infraestructura que conecta datos y modelos, la alineación determinante no sería una norma jurídica externa, sino una lógica cultural codificada en los propios datos, muy diferente de las «constituciones» propietarias redactadas en Silicon Valley.

Esas serían las herramientas de nuestra independencia: para salir del aplanamiento cultural y mantener nuestro potencial de desarrollo basado en lo específico, lo único, lo improbable.

Actores del sector privado como Mistral AI y Silo AI ya han demostrado que los equipos europeos son capaces de desarrollar y desplegar modelos de vanguardia a gran escala que son competitivos.

Pero Europa también debería invertir en la próxima generación de modelos fundamentales que vayan más allá del paradigma dominante actual, por ejemplo, la iniciativa pública NextFrontierAI, cuyo objetivo es construir arquitecturas más innovadoras, más eficientes en términos de muestreo y estructuralmente más abiertas a la diversidad cultural.

La lógica comercial del desarrollo de la IA no es hostil a la diversidad cultural: le es indiferente de manera estructural.
Marina Niforos, Milena Harito y Mira Mezini

La condición cultural de una IA del futuro

El lenguaje no es una simple herramienta de comunicación.

Es el medio a través del cual una sociedad delibera, legisla, educa y se gobierna a sí misma. Recurso común, producto de generaciones, esta lengua pertenece a todos: no puede reducirse a la propiedad de un solo actor.

En sus trabajos, la economista Elinor Ostrom ha demostrado que tales recursos, dejados sin gobernanza colectiva, tienden hacia un equilibrio destructivo: cada actor racional explota lo que está disponible, sin que nadie tenga interés en asegurar su reproducción. ⁷ Aplicado a los datos culturales y lingüísticos, el mecanismo es precisamente este: absorbidos, homogeneizados, restituidos en una forma empobrecida, pierden progresivamente lo que constituía su valor: la singularidad, la variación, lo improbable.

Este empobrecimiento no es un mal que nos esperaría si no hacemos nada. Ya lo conocemos hoy mismo.

Europa nos demuestra que es posible otro camino. Cuenta con el marco normativo y la infraestructura de investigación necesarios.

Lo que aún le falta es la voluntad de considerar el problema por lo que es: no un asunto de política industrial o de diversidad cultural, sino una elección de prioridades de la que depende la gobernanza de los sistemas que, en el futuro, definirán la relación de nuestras sociedades con sus conocimientos y sus derechos; y determinará, en esas mismas sociedades, quién seguirá siendo capaz de deliberar.

Los modelos dominantes en la actualidad están diseñados para maximizar la eficiencia y la adopción a gran escala, y para muchos usos, esta lógica tiene su justificación.

Pero los sistemas que estructuran el conocimiento, la deliberación y el derecho no se someten a ella sin sufrir pérdidas. Para ellos, la cultura no es una restricción que haya que optimizar: es la condición sin la cual dejan de ser legítimos.

Notas al pie

Henry Farrell, «Large language models are cultural technologies. What might that mean?», Programmable Mutter, 18 de agosto de 2025.
Incluso si alcanzara el nivel de la inteligencia general, los LLM no permitirían comprender la naturaleza de la conciencia, algo que la potencia de cálculo por sí sola no puede lograr.
Yan Tao, Olga Vibert, Ryan S. Baker y Rene F. Kizilec, «Cultural bias and cultural alignment of large language models», PNAS Nexus, 3 (9), septiembre de 2024.
Francisco W. Kerche, Matthew Zook y Mark Graham, «The silicon gaze. A typology of biases and inequality in LLMs through the lens of place», Platforms & Society, enero de 2026.
Jorge Perez, «Tokenising culture: causes and consequences of cultural misalignment in large language models», Ada Lovelace Institute, 19 de junio de 2025.
Règlement (UE) 2024/1689, Artículo 10, en vigor a partir del 1 de agosto de 2024; disposiciones aplicables a partir del 2 de agosto de 2026.
Elinor Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action, Cambridge, Cambridge University Press, 1990.