Google procesa actualmente alrededor de 20 petabytes de datos al día, lo que equivale a 1 000 TB, 1 000 000 GB o 1 000 000 000 000 000 bytes.

  • Los correos electrónicos, los datos de navegación a través de Maps, las búsquedas en Google o YouTube generan cada día miles de millones de datos que la empresa utiliza para perfeccionar sus servicios.

En la década de 2000, cuando solo una quinta parte de la población mundial utilizaba internet, investigadores de Google revelaron en la revista Nature una nueva herramienta que permitía detectar de forma precoz la evolución de los síndromes gripales en una población. Esta herramienta debía permitir detectar la aparición de epidemias de gripe utilizando las consultas introducidas en el motor de búsqueda. 1

  • Bautizada como Google Flu Trends (GFT), esta herramienta era, en el momento de su lanzamiento en 2008, la última y más ambiciosa de una serie de modelos que utilizaban el big data para anticipar e intentar predecir todo tipo de comportamientos: la evolución del tráfico carretero, los hábitos de compra, la dinámica del mercado laboral…
  • La idea era relativamente sencilla: ante la aparición de los primeros síntomas, miles de internautas utilizarían el motor de búsqueda para informarse sobre la enfermedad y, en su caso, ponerse en contacto con un médico.
  • El GFT formaba parte del proyecto filantrópico de la empresa, Google.org, lanzado unos meses antes.

En marzo de 2014, menos de seis años después del lanzamiento del proyecto, Google anunció que había puesto fin al GFT. Unas semanas antes, un estudio independiente reveló que el modelo «se había equivocado por completo durante la temporada de gripe 2011-2012» y había «cometido errores al alza en 100 de las 108 semanas desde agosto de 2011». 2 En febrero de 2013, el modelo había anunciado el doble de casos de los observados y se había mostrado incapaz de predecir la pandemia de gripe A de 2009.

El fracaso del GFT se considera hoy en día uno de los casos de estudio más representativos de la dinámica algorítmica.

  • Partiendo del principio de que una gran cantidad de datos permitiría obtener una imagen más precisa de las tendencias de la gripe que los métodos de predicción tradicionales utilizados, en particular por los Centros para el Control y la Prevención de Enfermedades, Google cometió numerosos errores metodológicos.
  • En particular, el modelo tenía dificultades para distinguir entre las personas que no tenían gripe pero deseaban obtener información.
  • El algoritmo también seleccionaba automáticamente consultas supuestamente relacionadas con estados gripales, pero que en realidad reflejaban coincidencias estacionales sin relación médica, como la secuencia de palabras clave «basquetbol en la escuela», cuya frecuencia aumentaba al mismo tiempo que la temporada de gripe.

Google podría intentar recuperar su modelo estadístico mejorándolo con inteligencia artificial.

  • El año pasado, dos investigadores de la empresa publicaron un artículo en el que presentaban dos nuevas técnicas que permitirían obtener mejores resultados: la compresión SLaM, que permite cuantificar los términos de búsqueda utilizando modelos lingüísticos preentrenados, y CoSMo, un modelo que permite estimar eventos del mundo real utilizando únicamente datos de búsqueda. 3
  • SLaM (Search Language Model Compression) es una tecnología que ya se utiliza, especialmente en el campo de la IA automovilística, para realizar tareas de aprendizaje automático.
  • La capacidad de los grandes modelos de lenguaje para responder a las consultas de los usuarios depende de la calidad y la diversidad de los datos con los que se han entrenado. Durante su desarrollo, si las tareas de entrenamiento son demasiado simples o están mal diseñadas, el modelo puede aprender atajos o correlaciones superficiales, o incluso completamente erróneas.
Notas al pie
  1. Ginsberg, Jeremy, Mohebbi, Matthew H., Patel, Rajan S., et al., «Detecting influenza epidemics using search engine query data», Nature, 2009, vol. 457, n°7232, pp. 1012-1014.
  2. Lazer, David, Kennedy, Ryan, King, Gary, et al., «The parable of Google Flu: traps in big data analysis», Science, 2014, vol. 343, n°6176, pp. 1203-1205.
  3. Mulc, Thomas y Steele, Jennifer L., «Compressing search with language models», arXiv, 24 de junio de 2024.