Google traite aujourd’hui environ 20 pétaoctets de données chaque jour, soit l’équivalent de 1 000 To, 1 000 000 Go ou 1 000 000 000 000 000 d’octets.

  • Les emails, données de navigation via Maps, de recherche sur Google ou YouTube génèrent chaque jour des milliards d’informations utilisées par l’entreprise pour affiner ses services.

Dans les années 2000, alors que seulement un cinquième de la population mondiale utilisait internet, des chercheurs de Google avaient dévoilé dans la revue Nature un nouvel outil permettant de détecter de manière précoce l’évolution des syndromes grippaux au sein d’une population. Celui-ci devait permettre de détecter l’apparition d’épidémies de grippes en utilisant les requêtes entrées dans le moteur de recherche 1.

  • Baptisé Google Flu Trends (GFT), cet outil était, lors de son lancement en 2008, le dernier et le plus ambitieux d’une série de modèles mobilisant les big data pour anticiper et tenter de prédire toutes sortes de comportements : l’évolution du trafic routier, les habitudes d’achat, les dynamiques du marché de l’emploi…
  • L’idée était relativement simple : dès l’apparition de premiers symptômes, des milliers d’internautes utiliseraient le moteur de recherche pour s’informer sur la maladie et, éventuellement, d’entrer en contact avec un médecin.
  • Le GFT s’inscrivait dans le cadre du projet philanthropique de l’entreprise, Google.org, lancé quelques mois auparavant.

En mars 2014, moins de six ans après le lancement du projet, Google annonçait avoir mis fin à GFT. Quelques semaines plus tôt, une étude indépendante révélait que le modèle s’était « trompé de très loin lors de la saison grippale 2011-2012 » et avait « commis des erreurs à la hausse pour 100 des 108 semaines depuis août 2011 » 2. En février 2013, le modèle avait annoncé deux fois plus de cas qu’observés, et s’était révélé incapable de prédire la pandémie de grippe A de 2009.

L’échec du GFT est aujourd’hui considéré comme l’un des cas d’étude les plus représentatifs des dynamiques algorithmiques.

  • En partant du principe qu’une quantité importante de données permettrait d’obtenir une image plus précise des tendances grippales que les méthodes de prédiction traditionnelles utilisées notamment par les Centres pour le contrôle et la prévention des maladies, Google avait commis de nombreuses erreurs méthodologiques.
  • Le modèle avait notamment du mal à distinguer les personnes qui n’étaient pas atteintes de grippe mais souhaitaient se renseigner.
  • L’algorithme avait également automatiquement sélectionné des requêtes supposées liées à des états grippaux, mais qui reflétaient en réalité des coïncidences saisonnières sans rapport médical, comme la suite de mots-clefs « basketball au lycée », dont la fréquence augmentait en même temps que la saison de la grippe.

Google pourrait tenter de remettre au jour son modèle statistique en l’améliorant grâce à l’intelligence artificielle.

  • L’an dernier, deux chercheurs de l’entreprise ont publié un article présentant deux nouvelles techniques qui permettraient d’obtenir de meilleurs résultats : la compression SLaM, qui permet de quantifier les termes de recherche à l’aide de modèles linguistiques pré-entraînés, et CoSMo, un modèle permettant d’estimer des événements du monde réel en utilisant uniquement des données de recherche 3.
  • SLaM (Search Language Model Compression) est une technologie déjà utilisée, notamment dans le domaine de l’IA automobile, pour réaliser des tâches d’apprentissage automatique.
  • La capacité des grands modèles de langage à répondre aux requêtes des utilisateurs dépend de la qualité et de la diversité des données sur lesquelles ils ont été entraînés. Lors de leur développement, si les tâches d’entraînement sont trop simples ou mal conçues, le modèle peut apprendre des raccourcis ou corrélations superficielles — ou complètement erronés. 
Sources
  1. Ginsberg, Jeremy, Mohebbi, Matthew H., Patel, Rajan S., et al., « Detecting influenza epidemics using search engine query data », Nature, 2009, vol. 457, n°7232, p. 1012-1014.
  2. Lazer, David, Kennedy, Ryan, King, Gary, et al., « The parable of Google Flu : traps in big data analysis », Science, 2014, vol. 343, n°6176, p. 1203-1205.
  3. Mulc, Thomas et Steele, Jennifer L., « Compressing search with language models », arXiv, 24 juin 2024.