Dos equipos de científicos, francés y suizo, parecen haber logrado identificar la identidad de Q, el principal fundador del movimiento de fantasía conspirativa QAnon. Utilizando métodos diferentes, llegaron a conclusiones similares, atribuyendo la autoría de los primeros mensajes a un desarrollador de software sudafricano, Paul Furber. El estudio francés, dirigido por los investigadores Florian Cafiero y Jean-Baptiste Camps, moviliza los conocimientos de la IA (Inteligencia Artificial), la lingüística y la estilometría para arrojar luz sobre la identidad del fundador de QAnon. Ilustra el potencial de estos métodos algorítmicos en la lucha contra la desinformación en un contexto en el que los medios tecnológicos desplegados para estas campañas de desestabilización y difusión de tesis tóxicas son cada vez más sofisticados.
Ustedes señalan que una de las particularidades de QAnon, este grupo formado en internet, es su gran eficacia en la difusión de sus teorías conspirativas que luego tienen un importante impacto en nuestras vidas. Su investigación y este estudio de caso parecen alejados de la idea de un investigador de humanidades digitales que explota la tecnología para trabajar en el desarrollo del conocimiento de los archivos o el conocimiento de los grandes textos. ¿Pueden presentarnos a su grupo de investigación?
Jean-Baptiste Camps
Estudié y ahora trabajo en la École des Chartes, que celebra su bicentenario. La escuela fue creada para formar expertos en el análisis de textos y documentos antiguos, personas capaces de leer, comprender y procesar todos los documentos resultantes de las incautaciones revolucionarias, las cartas medievales y los manuscritos; y desde entonces la escuela ha desarrollado una experiencia en textos y documentos. Toda esta pericia en las ciencias auxiliares de la historia puede aplicarse tanto a documentos medievales como a documentos muy contemporáneos y puede llevar al tipo de pericia forense aplicada en el caso de QAnon. Actualmente, grupos de jóvenes investigadores digitales intentan combinar la ciencia forense tradicional con cuestiones como el análisis de estilo. La IA tiene un papel importante en esto. Tenemos cursos de humanidades digitales con un máster dedicado desde 2017 a la ciencia de los datos y de las humanidades.
Florian Cafiero
Llevamos unos diez años enseñando estilometría en la École des Chartes. Vengo del laboratorio GEMASS, el laboratorio de ciencias sociales de la Sorbona y del CNRS. En mi trabajo solía abordar los temas de la desinformación y la teoría de la conspiración, como la polémica en torno a la vacunación o con la Miviludes en torno a las derivas sectarias. Por lo tanto, era sensible a las cuestiones que rodean a QAnon. En cuanto a la estilometría, la aplicamos a cuestiones extremadamente filológicas y cartistas y luego evolucionamos hacia cuestiones más amplias y quizá más contemporáneas. Empezamos a hablar públicamente de la estilometría en el caso Grégory, y luego nos llamaron la atención ciertos resultados de un equipo suizo que estaba trabajando en QAnon pero que no había llegado a estudiar la atribución de autoría de los mensajes de QAnon: los famosos “Q drops«.
Se podría pensar que estas teorías, una vez lanzadas, tienen vida propia y ya no dependen de su creador: la mayoría de los creyentes en QAnon han caído en burbujas cognitivas suministradas por los algoritmos de sugerencia automática de Facebook o Youtube sin ni siquiera tener que frecuentar los foros en los que estas teorías aparecieron por primera vez. Sin embargo, ¿por qué es crucial entender quién está detrás de los puestos originales? ¿Cuáles fueron sus motivaciones durante estos siete meses de trabajo?
El movimiento QAnon sí que va más allá de sus creadores. Muchas de las teorías y contenidos que se han difundido han sido ajenos al discurso de su(s) creador(es). Los textos de Q son textos extremadamente crípticos que no afirman mucho, que hacen preguntas. El truco de Q era hacer preguntas al mundo y dejar que la gente «pensara». Eso permitió que surgiera una esfera que iba mucho más allá de los autores. Entonces, ¿por qué trabajar sobre los autores? En primer lugar, volver a la idea preconcebida que tenían muchos seguidores de este grupo, que era que estos textos tenían que venir de una fuente de muy alto nivel, quizás el propio Donald Trump o un asesor de defensa de alto nivel. Habría simples observaciones lingüísticas de que la escritura de Q no coincide con la complejidad lingüística de alguien que habría estado en la cima de la Agencia Central de Inteligencia estadounidense (CIA) y que probablemente habría pasado por las mejores universidades del país. Tras la derrota de Trump, muchos de los creyentes de QAnon sintieron rabia, estupefacción y se sintieron engañados. Con nuestra publicación, tener este enfoque participó a la construcción del muro de realidad que se ha opuesto a la creencia de los seguidores de QAnon. Era para demostrar que no hay ninguna posibilidad de que sea Donald Trump o Michael Flynn. La realidad debe oponerse a la creencia que se ha compartido durante varios años.
Jean-Baptiste Camps
La disminución de la creencia en QAnon también debe ser puesta en perspectiva. Por ejemplo, un reciente estudio publicado por un think tank estadounidense muestra que la creencia en QAnon ha aumentado en lugar de disminuir en 2021.
Florian Cafiero
También hay que distinguir la creencia en Q de la creencia en QAnon. Pensar que las élites son corruptas y que las elecciones fueron amañadas es diferente a creer que Q es un miembro destacado del servicio secreto. La principal motivación era, por tanto, explicar mejor el fenómeno. Si las suposiciones sobre las personas que pusimos a prueba como posibles colaboradores de los mensajes de QAnon son válidas, las personas incriminadas todavía están presentes en la escena política. Ron Watkins, por ejemplo, se presenta como candidato al Congreso de los Estados Unidos, y los estadounidenses tienen derecho a saber que es muy probable que esta persona haya estado detrás de uno de los movimientos más descaradamente erróneos de este país. Este proyecto es también un gesto cívico que moviliza el enfoque científico de forma rigurosa más allá de un simple proyecto científico.
En el imaginario popular, la IA transmite la imagen de una tecnología completamente automatizada, en la que los datos son sencillos de adquirir y los modelos son complejos de construir. En este sentido, su trabajo es emblemático de lo que es el trabajo de muchos investigadores de IA hoy en día. El modelo está disponible en la estantería, pero los datos son un bien escaso y delicado de explotar. ¿Pueden describir esta fase de reflexión que vincula su experiencia en estilometría, las limitaciones de los datos brutos que puede recoger y las limitaciones del caso de uso, es decir, la atribución de la autoría de los mensajes de QAnon?
Efectivamente, el algoritmo que hemos elegido está relativamente consolidado en el campo de la estilometría y nadie puede discutir que es un algoritmo eficiente. Por ello, para promover el consenso sobre el método, elegimos un modelo muy eficiente que nos protegiera de las críticas al método. El grueso del trabajo, y esto también se aplica a nuestros textos humanistas y a nuestros enfoques habituales, es de establecer el texto correctamente. La mayoría de los candidatos citados por el New York Times como probables autores de Q según adoradores, periodistas o investigaciones, eran personas cuyo contenido en Internet había sido borrado en gran medida. Esto incluía a Donald Trump y a su entorno, a quienes se les habían borrado sus cuentas en las redes sociales. Así que tuvimos que hacer una bibliografía humanista muy clásica para volver a los archivos de la web desde una o dos URL. Paso a paso, pudimos crear un corpus. Además, estos autores se citan mucho entre sí. Por ejemplo, todos citan a Q, que a su vez cita o imita a todos los demás intentando hacerse pasar por Donald Trump, Michael Flynn o Steve Bannon. Por cierto, el trigrama más característico de la escritura de Donald Trump es «FAK», así que imitar a Donald Trump escribiendo «fake» en todas partes funciona muy bien ya que es exactamente lo que hace.
Jean Baptiste Camps
En un principio, realizamos una tarea filológica y computacional bastante clásica: identificar las citas y reutilizaciones de la misma manera que se intenta averiguar cuándo San Agustín cita la Biblia. Para ello, utilizamos algoritmos de detección de reutilización que, a su vez, derivan de algoritmos utilizados en la biología de alineación de secuencias. Aquí estudiamos las secuencias textuales del mismo modo que estudiamos las secuencias de ADN. Esto resultó relativamente fácil, ya que se trata de un proceso de copiar y pegar que es más fácil de detectar. Sin embargo, eslóganes como «make America great again» se han convertido en gritos de guerra y, por lo tanto, ya no se consideran realmente citas. Este trabajo era esencial porque si buscamos atribuir los posts de Q y contienen citas de Donald Trump, esto los acercará artificialmente a Trump. El corpus de Q drops que estamos considerando, tiene un género propio que nadie más practica; los autores-candidatos a la atribución no practicaron este mismo tipo de formas breves y proféticas. Nos encontramos necesariamente en un caso de comparación entre distintos géneros, lo que siempre conlleva dificultades. De la misma manera que el mismo autor no escribe comedias que tragedias, potencialmente no escribe Q drops de la misma manera que tweets o posts de Facebook. Por lo tanto, tuvimos que construir corpus alejados de los Q drops, para cada candidato, mezclando textos de las redes sociales y fuentes complementarias, como transcripciones de entrevistas.
El análisis de las humanidades digitales ha puesto de manifiesto el papel decisivo de las palabras-herramienta: artículos, preposiciones, pronombres, etc. Así, según la fórmula de Antoine Compagnon, «la firma de un escritor está en lo que no se lee». ¿Se mantiene esta fórmula en el caso del corpus de mensajes de QAnon?
En la estilometría, siempre buscamos cosas que sean las menos conscientes posibles y las más específicas de la variación inconsciente del estilo. Esto se llama concepto de idiolecto, la lengua tal y como la hablan los individuos. A menudo contamos las palabras-herramienta porque dependen de los individuos y son frecuentes. En nuestro caso, tomamos las secuencias de tres caracteres, los tri-gramas, porque han demostrado ser extremadamente eficaces en la estilometría. Un último reto de los datos fue confrontar la pobreza estilística del corpus con autores cuya imaginación es mucho más desarrollada que su estilo. Otro reto fue poder extraer toda la información posible del estilo. Nadie utiliza en su vida cotidiana tantos pronombres interrogativos que los Q drops, la riqueza léxica no es extraordinaria, hay palabras herramientas que son borradas por el estilo telegráfico como «¿Por qué ahora?», «piensa algo». Esto es también lo que hizo que el trabajo sobre las fuentes, sobre la detección de reutilizaciones fuera absolutamente crucial.
Nos recuerdan que el tipo de modelo de IA que utiliza, las SVM (Máquinas de Vector Soporte), es un método robusto para la estilometría. La tendencia en la disciplina del procesamiento del lenguaje natural es la aumentación del tamaño de los modelos de IA utilizados. El método que usted usa se inventó en 1992 y parece que se introdujo en la estilometría a los principios de la década de 2000. ¿El ritmo de adopción de la tecnología en la estilometría está sujeto a sus propias limitaciones -volumen de los conjuntos de datos, por ejemplo- que hacen que los modelos más complejos no sean atractivos?
Ya se han utilizado modelos más complejos para la estilometría en situaciones muy concretas, pero en la mayoría de los casos, las SVM son un poco un arte porque en general tenemos una buena idea del tipo de información que queremos extraer. El idiolecto se manifiesta mediante el uso de palabras herramientas, prefijos, sufijos… Esto permite saber qué tipos de caracteres se quieren analizar realmente. Además, a menudo intentamos arbitrar entre un número limitado de autores, y el volumen del conjunto de datos puede ser modesto. En algunos casos, estos métodos también pueden utilizarse para atribuir 3.000 o 4.000 cuentas de Twitter, pero estos usos aún están poco desarrollados. Para nuestro problema, aspirar a todas las cuentas de Twitter de la alt-right y analizarlas no habría sido el enfoque más pertinente porque teníamos una buena idea de los posibles candidatos de antemano.
Citan trabajos sobre la difícil cuestión de atribuir varias obras de Shakespeare a diferentes autores. La IA ha confirmado las interpretaciones ya realizadas sobre las obras del teatro isabelino del siglo XVI, que era por esencia un ejercicio de colaboración. ¿La IA aplicada a la estilometría se limita a confirmar las interpretaciones ya realizadas por los especialistas? Su artículo va más allá al arbitrar entre diferentes hipótesis de autoría de los mensajes de QAnon. ¿Pueden explicarnos sus resultados y cómo los especialistas de QAnon reciben estas conclusiones algorítmicas?
Florian Cafiero
La lista de candidatos nos fue proporcionada por investigaciones periodísticas anteriores. Si estas investigaciones han eliminado a los sospechosos, entonces estamos equivocados. En nuestro documento insistimos en que las hipótesis que investigamos son plausibles, pero no hacemos afirmaciones directas. Entre los nombres más citados que estudiamos, Paul Furber figuraba entre los principales para varios periodistas. Los Q drops sólo tienen unas pocas líneas. Así que no podemos descartar la posibilidad de que otra persona haya escrito algunos Q drops. En general, nuestros resultados parecen haber sido recibidos como un cierto alivio, como una confirmación de lo que se había dicho. Uno de los puntos fuertes de este resultado, tal y como está, es que tiene mucho sentido: el algoritmo detecta un cambio de mano en un momento en el que se espera que haya un cambio de mano. Así, vemos cómo la firma de Ron Watkins se dispara en un momento en el que Paul Furber dice que « este el último Q drop auténtico. »
Jean Baptiste Camps
la crítica que se le hace a las humanidades digitales de confirmar hipótesis que ya existen o de decir cosas que ya se sabían la formulan a menudo personas que son a su vez muy tradicionalistas en su enfoque y que se sorprenden de que aplicando métodos computacionales se obtengan resultados coherentes con dos siglos de estudios de lectura atenta de textos. No es de extrañar que durante dos siglos los investigadores hayan acertado con frecuencia. Por supuesto, hay casos en los que la estilometría diverge, aportando resultados totalmente nuevos, identificando autores nunca antes considerados. En este sentido, el caso del himno holandés es emblemático de la estilometría disruptiva: el uso de estos métodos sobre el texto del himno determinó que un autor menor era el candidato más probable para la atribución del texto, barajando las cartas de las suposiciones tradicionales de los expertos.
Florian Cafiero
La estilometría también aporta innovaciones en casos que no podrían tratarse de forma tradicional, por ejemplo, al comparar un gran número de textos entre sí.
¿Qué tipo de garantías de explicabilidad pueden extraerse de estos modelos? Es el argumento estadístico racional, el de la máquina, un argumento que puede calificarse de racional frente a los delirios fantasmagóricos de los partidarios de QAnon?
Jean Baptiste Camps
Podemos mostrar cuáles son las principales variables que contribuyen a las funciones de decisión de nuestros modelos. En general, en la estilometría, la explicabilidad es siempre un reto porque tratamos de encontrar marcadores de estilo poco conscientes para el autor y el lector. Cuando le preguntamos a un lector qué recuerda del estilo de Proust o de Céline o de un determinado poeta, nos dará figuras retóricas o temas o léxico, que no es en absoluto lo que buscamos. Buscamos marcadores lo menos conscientes posible -preposiciones, determinantes, conjunciones coordinadas, etc.- que son mucho más difíciles de explicar. Tenemos mucha menos intuición sobre lo que significa usar « el » más a menudo o « la » menos a menudo que usar un término como « honor ».
Ahora sabemos que las diversas estrategias para interferir en los procesos electorales o desestabilizar las democracias mediante la difusión de teorías conspirativas, cuando son dirigidas por las autoridades estatales, pueden ser muy sofisticadas. ¿Es probable que su método puede ser engañado en el futuro? ¿Podría un grupo de autores conocedores de su método optimizar su creación de información falsa en el futuro utilizando una estrategia adversa para evitar ser descubiertos por su método?
Florian Cafiero
En general, cualquier técnica de detección se opone a una contra-respuesta. Hoy en día sigue siendo técnicamente difícil porque no hay muchas herramientas para quien quiera engañar a su mundo, sobre todo porque la imitación es algo que generalmente se hace mal. Cuando imitamos a alguien, imitamos los rasgos que creemos más característicos de su discurso. Exageraremos las expresiones que aparecen con regularidad, incluso más que la persona a la que intentamos imitar. Esta es la dinámica del pastiche. Por lo tanto, esto requeriría mucho trabajo, pero sería técnicamente factible.
Jean Baptiste Camps
Hay incluso un campo que existe, que es de la estilometría adversarial, en el que hay muchas contribuciones sobre los mejores algoritmos para codificar la señal estilística con la sustitución aleatoria de palabras de un diccionario de equivalencias o métodos más sofisticados. Este campo a veces puede ser legítimo, especialmente cuando se trata de evitar que un denunciante sea descubierto.
Esto nos lleva naturalmente a interrogarnos sobre las nuevas tecnologías de desinformación. En particular, ¿creen que los métodos clásicos de estilometría seguirán siendo robustos ante futuras campañas de desinformación que puedan llevarse a cabo a gran escala utilizando modelos generativos del lenguaje como el GPT3? Estos modelos pueden ser entrenados para replicar el estilo de un autor o inventar un nuevo estilo al tiempo que crean un mensaje propagandístico adaptado a un público objetivo. ¿Está la comunidad académica preparada para estudiar estos nuevos fenómenos desde una perspectiva tanto algorítmica como computacional?
Florian Cafiero
Es una guerra de medios, es una guerra de « quién tendrá la IA » que puede detectar la IA del otro bando. Si el terreno se desplaza hacia este tipo de combate, y no se puede descartar, habrá una guerra que será principalmente una guerra de equipos, a saber: quién tendrá el mayor poder de computación. Podemos imaginar que en el futuro podremos generar elementos de texto o de imagen aún más cercanos a la realidad y eso nos causará problemas. La batalla se trasladará quizás a otros medios de investigación: trataremos de identificar la fuente de una emisión, es decir, ¿quién envió el contenido a Internet? – en lugar de si el contenido es verdadero o falso. No puedo hablar de los planes de las instituciones y de los Estados sobre el tema, pero no tengo la impresión de que en Francia estemos sobrearmados en este tema.
Jean Baptiste Camps
Ya podemos detectar mediante métodos de IA si un pasaje está coescrito: en igualdad de condiciones, ¿hay un autor o varios detrás? Detectar si hay una ofuscación voluntaria por parte del autor es como tratar de detectar una coescritura hombre-máquina. Se trata, por tanto, de un choque de poder entre los que pretenden enmascarar y los que pretenden desenmascarar, una dialéctica de oposición que, de producirse, llevará a una competencia de métodos en ambos campos.
Su proyecto utiliza código open source y también produce sus propias librerías open source. ¿Qué papel desempeña la ciencia abierta en su enfoque?
Ya es una necesidad absoluta como investigador ajustarse a lo que predicamos: ciencia abierta, reproducibilidad de los análisis, acumulabilidad, refutabilidad… Debería ser un automatismo publicar y liberar el código que hemos utilizado y los datos cuando podamos hacerlo. En el contexto de las teorías de la conspiración, cabe esperar que marginalmente esto pueda tener un impacto positivo. En el mundo real, creo que son muy pocas las personas que tienen la motivación, la apertura y las aptitudes para asumirlo. Tal vez el mero hecho de que el código sea abierto pueda tener un impacto simbólico en el público sin que se concrete en ir a revisar el código.
Es necesario interpretar los resultados del modelo para superar ciertos sesgos, especialmente los sesgos en las correlaciones entre los temas presentes en los datos de entrenamiento de los candidatos y los temas presentes en el corpus de mensajes de QAnon. Por tanto, los resultados brutos del modelo no pueden explotarse tal cual, sino que deben ser contextualizados e interpretados por expertos. Así, demuestra que la máquina no sustituye a los conocimientos humanos, sino que los complementa. ¿Cuál es su visión de la colaboración productiva entre humanos y máquinas en las ciencias humanas?
Probablemente hay diferentes tipos de colaboración que pueden ser interesantes en el hombre-máquina. Está lo que vemos inmediatamente y lo que hemos visto en las humanidades desde los años 1950, es decir, la sustitución del ser humano por la máquina para tareas repetitivas y tediosas, como la indización, el recuento de la frecuencia de las palabras, etc. En los últimos años, estos sistemas se han hecho cada vez más populares. En los últimos años, estos sistemas se han vuelto cada vez más inteligentes y pueden producir pericias cada vez más finas: transcripción de la escritura que algunos alumnos no pueden transcribir, resolución de abreviaturas o nombres ambiguos, etc. Hay un segundo nivel que se refiere a la contribución de los modelos a la interpretación, en interacción con los conocimientos humanos. Podemos mencionar las diversas herramientas estadísticas o arsenales de sistemas complejos, las simulaciones, que son campos muy prometedores para las ciencias humanas para extraer la inteligibilidad de los datos.
Florian Cafiero
Un punto que me parece importante es que puede haber interminables guerras máquina-máquina sobre la autenticidad de los textos, pero se trata de elementos en los que la mejor arma es también el ser humano, que puede hacerse cargo y que tiene su propia experiencia del mundo tangible, algo que los algoritmos no tienen. La mejor manera de evitar caer en la trampa de los textos falsos y la desinformación es ejercitar el espíritu crítico y obtener toda la información posible de fuentes que uno sepa que son fiables. A corto plazo, ningún algoritmo nos salvará de adquirir este tipo de conocimientos.
Su trabajo incluye una nota sobre los principios de investigación ética y responsable que han seguido. Toman una serie de precauciones en relación con el anonimato o el intercambio de datos. Hasta hace muy poco, la IA era desarrollada por los grandes actores en torno a los conceptos de autonomía -el grado de éxito se basa en el grado de autonomía independiente de la supervisión humana-, competencia con las capacidades cognitivas humanas y centralización de la toma de decisiones. ¿Cuáles serían los atributos clave de la IA para las humanidades?
Tuvimos un largo debate sobre el caso QAnon y lo que nos permitiría hacerlo o no. En nuestro campo de estudio y para nuestro trabajo sobre QAnon, la mayor pregunta que nos surgió fue cuestionar la pertinencia de iniciar un proyecto de este tipo. Teníamos límites en lo que estábamos dispuestos a dar como resultados. Si hubiéramos incriminado a un perfecto anónimo, no habríamos expuesto su nombre. En este caso, resulta que estamos en un caso muy diferente en el que Ron Watkins se presenta como candidato al Congreso de los Estados Unidos, por lo que estamos en el ámbito de la figura pública. Sin embargo, utilizar la estilometría para desenmascarar los seudónimos de J.K Rowlings, o para investigar a Elena Ferrante, es tratar como criminales a individuos que han utilizado un seudónimo por razones que les conciernen.Desconfío de este tipo de uso de la estilometría. Este campo de la ética para la estilometría es un campo extremadamente complejo y abierto para los próximos años. ¿Qué se puede hacer para contrarrestar a quienes hacen un mal uso de este tipo de tecnología?
Estamos asistiendo a un cambio en la historia de Europa y de las democracias liberales en el que se esgrimen narrativas alternativas, « hechos alternativos », para apoyar una lucha ideológica, para establecer un proyecto autoritario o para llevar a cabo campañas de desestabilización. Como reacción a la invasión de Ucrania, hoy los canales de televisión y los medios de comunicación del régimen en el poder en Rusia tienen prohibidas sus emisiones en el territorio de la Unión y en las principales plataformas tecnológicas estadounidenses. ¿La estilometría y los métodos que está desarrollando pueden ser un medio adicional que, si se utiliza a gran escala, podría permitir a los ciudadanos saber quién habla cuando reciben información?
Sí, seguramente. Ya existen herramientas que utilizan la IA para detectar noticias falsas y no es improbable que lo que la IA detecta sea en realidad el estilo de las personas que sistemáticamente escriben las noticias. Se puede imaginar que hay un número limitado de algoritmos y personas que los ofrecen al mundo; y la IA es capaz de encontrarlos.
Por un lado, si utilizamos estas tecnologías como herramientas de ciberguerra, las personas que están al frente podrán responder con textos generados de forma más sofisticada. No podemos evitar la crítica en el sentido más tradicional de intentar contextualizar la información que recibimos, cotejarla, tratar de cruzar las fuentes. Espero que la estilometría ayude a crear herramientas cada vez más sofisticadas para evitar que nos engañen, pero nunca será una solución mágica. Nunca estaremos exentos de este trabajo, que siempre hemos tenido que hacer en el caso de QAnon, de criticar fuentes.