Les données à l'origine du deuxième confinement

Auteur: Johannes Borgen
Trad.: Giovanni Collot
Image: par Olivier Lenoir Le Grand Continent Johannes Borgen
Date: 1 novembre 2020

Partager

Depuis vendredi dernier, la France est entrée dans un second confinement. Elle a été rapidement suivie par de nombreux autres pays européens. Mais les informations restent contradictoires et parfois difficiles à analyser. C’est pourquoi j’ai décidé d’examiner attentivement les données françaises afin d’avoir une vision plus claire du Covid-19.

Cet article vise notamment à répondre aux questions suivantes :

Quelle est l’ampleur de la deuxième vague ?
A quelle vitesse grandit-elle ?
Ne touche-t-elle que les jeunes, comme certains le prétendent ?
Le Covid est-il vraiment mieux traité ?
Le taux de mortalité diminue-t-il vraiment ?
Le gouvernement peut-il arrêter la deuxième vague assez rapidement ?

Toutes ces questions sont importantes. Cet article se limite aux données françaises, mais il n’est pas absurde de supposer que les données sont similaires dans toute l’Europe occidentale, une fois pris en compte les décalages dans le temps, ce que les données hospitalières publiées par l’ECDC tend d’ailleurs à montrer.

Commençons par la première question : quelle est l’ampleur de la deuxième vague ? La chose la plus importante à conserver à l’esprit est la suivante : les données relatives au nombre de cas (ou « d’incidence » selon le terme consacré) sont inutiles, car la première vague a été grossièrement sous-estimée (d’un facteur que j’estime entre 10x et 20x). Dès lors, quels chiffres pouvons-nous utiliser ? Je propose d’utiliser les données fournies par les hôpitaux, qui sont à la fois cohérentes, homogènes et objectives.

Le site data.gouv.fr publie un grand nombre de jeux de données, mais commençons simplement notre étude par les soins intensifs et les hospitalisations, pour toutes les tranches d’âge.

D’après ces courbes, il semble que nous soyons encore loin du sommet de la première vague, mais en pleine croissance. Il est légitime de se demander si ces résultats sont biaisés par la sur ou sous-représentation d’un groupe d’âge spécifique, voire d’un autre effet ? Pour le vérifier, j’ai utilisé une Analyse en Composantes Principales (ACP) afin d’identifier le facteur principal qui régit la variance de toutes les séries chronologiques relatives aux hospitalisations. Il s’avère qu’un unique facteur explique 80 % de la variance, pour 40 séries, ce qui est remarquable. Il s’agit donc clairement du facteur de pandémie. Voici son évolution au fil du temps :

Nous nous rapprochons dangereusement du pic précédent.

Mais à quelle vitesse ? C’est la deuxième question. Depuis la première vague, le nombre « R » est sur toutes les lèvres : il s’agit du fameux nombre de reproduction… que personne ne peut reproduire, car il est si complexe à estimer !

Il existe de nombreuses difficultés, notamment méthodologiques, pour estimer R, mais le principal problème est nettement plus prosaïque : les données d’incidence de la première vague ne veulent rien dire ! Voici en effet à quoi ressemblent les estimations de R avec EpiEstim (package en langage R) :

La partie gauche du graphique (première vague) n’est évidemment pas du tout représentative de la réalité sur le terrain. Comment contourner ce problème ? A nouveau, en utilisant les données hospitalières. A strictement parler, ce ne sont pas de véritables « données sur l’incidence de l’épidémie », mais si le pourcentage de personnes se rendant aux soins intensifs ou à l’hôpital est plus ou moins stable, les courbes ont la même forme et l’estimation de R est la même. Ces données devraient donc donner une estimation raisonnable de R sans le biais lié à l’absence des tests lors de la première vague. Voici donc les estimations R que nous obtenons en utilisant les données d’incidence hospitalière.

Arrivées quotidiennes à l’hôpital

Arrivées quotidiennes aux USI

Décès quotidiens

Il est très intéressant de noter que toutes les estimations sont cohérentes, comme on peut le voir ci-dessous avec une comparaison des estimations R pour toutes les séries :

Voilà donc notre réponse : R est d’environ 1,2, ce qui signifie que les chiffres doublent tous les 20 jours et que, sans mesures prises, nous devrions atteindre dans 25 jours¹ le terrible pic des soins intensifs constaté lors de la première vague.

Question 3 : La seconde vague du Covid 19 frappe-t-elle surtout les jeunes ? La réponse courte est : Non. Passons maintenant à la réponse détaillée. Premier indice, examinons, pour chaque groupe d’âge, sa part dans le total des données relatives aux soins intensifs, aux hospitalisations et aux décès dûs à la Covid, par rapport à la part que chaque groupe représente dans la population. Le graphique est sans grande surprise, on constate que la maladie est d’autant plus dangereuse que l’âge augmente. Mais un point intrigue : la faible part (relative) des soins intensifs pour les personnes très âgées. Nous reviendrons sur ce point important plus tard.

Ces proportions ont-elles changé au fil du temps ? Pour le vérifier j’ai divisé les données en trois groupes : le jeu de données entier, les données jusqu’au premier pic et enfin les données depuis septembre. J’obtiens ce qui suit :

À l’hôpital

Dans les USI

Decès

Le seul changement visible concerne les données des USI pour les personnes très âgées. Le reste est presque parfaitement stable.

Quel que soit les données que l’on choisit d’analyser, (hospitalisations, décès, soins intensifs) et tous les groupes d’âge, l’on parvient et à chaque fois à une conclusion similaire. Sauf pour une série de données : les USI pour les personnes de plus de 80 ans. Ce graphique fait d’ailleurs froid dans le dos : les personnes âgées reçoivent, au cours de cette seconde vague, BEAUCOUP de soins intensifs.

On peut naturellement voir cela d’une manière positive : ces personnes reçoivent maintenant un traitement. Malheureusement, le revers de la médaille est terrible. Cela signifie aussi que les hôpitaux ont été tellement débordés lors de la première vague qu’ils ont dû faire des choix éthiques extrêmement difficile et ont dû sans doute laisser les plus âgés mourir sans aucune possibilité de soins intensifs.

Cela explique aussi le fait que les hospitalisations augmentent moins vite que les soins intensifs lors de la deuxième vague : il y a maintenant plus de personnes âgées qui vont aux soins intensifs qu’auparavant.

Autre question pertinente : les personnes âgées dans les hôpitaux sont-elles à la traîne par rapport aux plus jeunes ? En d’autres termes, est-ce que ce sont les jeunes qui infectent les personnes âgées ? Voici un autocorrélogramme croisé du groupe 20-29 ans contre 80-89 ans.

Effectivement on constate une asymétrie. Les jeunes arrivent donc les premiers à l’hôpital. L’effet reste cependant modéré (décalage pondéré des corrélations de 2,7 jours).

Passons maintenant à la quatrième question : quelle est la sévérité de la maladie aujourd’hui, par rapport à la première vague ? Il est impossible d’utiliser les taux de mortalité ou d’hospitalisation pour répondre à cette question car (répétons-le) les données sur les cas de la première vague sont inutilisables. Examinons donc l’autre « transition » possible : la proportion de personnes hospitalisées qui sont admises en soins intensifs , tout en nous assurant de ne pas biaiser le résultat du fait de la plus grande admission de personnes très âgées en réanimation. Voici ce que j’obtiens, toutes tranches d’âge confondues.

La très bonne nouvelle est, que pour le même taux d’hospitalisation, nous avons maintenant environ 25 % de moins de malades en soins intensifs. Il est clair que les médecins hospitaliers sont aujourd’hui mieux équipés pour faire face à la maladie. Mais ce n’est pas vrai pour tout le monde. L’effet est fort pour les groupes d’âge plus jeunes :

Mais s’estompe pour les groupes d’âge plus âgés :

Cinquième question : la Covid-19 tue-t-elle moins ? Je n’aime pas beaucoup cette question, car elle tend à centrer les débats autour de la maladie sur une question binaire (on meurt ou non), en ignorant toutes les conséquences éventuelles que la maladie peut avoir à long terme, sur lesquelles on ne sait d’ailleurs pas grand-chose (ce qui est tautologique). Mais je ne peux pas nier que c’est une question importante. Si nous analyses une tranche d’âge représentative (70-79 ans, les autres courbes sont similaires), nous parvenons aux mêmes conclusions que précédemment : les malades à l’hôpital décèdent moins (presque moitié moins !) que lors de la première vague.

Cependant, cet effet s’estompe également avec l’âge.

L’inverse est vrai pour les personnes admises en soins intensifs : il n’y a pas d’amélioration du taux de mortalité dans les soins intensifs pour la tranche d’âge 60-69 ans, mais la situation s’améliore pour les personnes âgées (ce qui, je pense, est simplement dû à la politique d’admission en soins intensifs très différente pour les personnes âgées).

Les taux de mortalité quotidiens dans les hôpitaux et les unités de soins intensifs confirment ce point de vue (ici pour la tranche d’âge 70-79 ans) :

Ces courbes montrent également une tendance inquiétante : la mortalité quotidienne dans les hôpitaux augmente, ce qui laisse supposer une baisse de la qualité des soins, certains hôpitaux étant à nouveau débordés. Il y a également un effet de décalage dans le temps qui est évident et doit être pris en considération.

Sixième question : le gouvernement peut-il y stopper cette seconde vague à temps ? Inutile de dire que cette question est cruciale. Premièrement, il est clair que les données d’incidence (hospitalisations, soins intensifs ou décès) sont fortement auto-corrélées, comme le montre l’autocorrélogramme ci-dessous. Il n’est pas possible d’arrêter la seconde vague du jour au lendemain.

Une approche classique et robuste pour analyser des données auto-corrélées est d’utiliser un modèle ARIMA. Voici la prévision à une semaine obtenue pour l’incidence hospitalière, en tenant compte de la saisonnalité hebdomadaire.

Ce genre de modèle est évidemment insuffisant, ou trop simple, ne serait-ce que parce qu’il passe à côté du facteur décisif lors d’une épidémie : comment le coefficient R évolue-t-il dans le temps ? Il évolue en fonction de deux facteurs principaux : le nombre de contacts sociaux et les mesures de précaution prises lors de ces contacts. Il est très difficile d’avoir un avis précis et quantifié sur le second point, mais le premier peut être mesuré à l’aide des données de mobilité de Google. On peut ainsi corréler les données hospitalières avec les données de mobilité en « transit » (mais le temps passé à domicile est également très utile). Par exemple, si l’on trace un graphique du Transit contre R, avec un décalage de 12 jours, on obtient ceci :

Le lien est loin d’être parfait, mais il existe.

J’ai utilisé une autre approche qui consiste à ajuster un modèle VARMA optimisé sur les deux séries et à mesurer ce qu’on appelle la fonction d’impulsion, c’est-à-dire le temps qu’il faut pour que les changements d’une variable se répercutent sur la deuxième variable.

On constate que 14 jours sont nécessaires pour obtenir un effet complet, 8 jours permettent de faire la moitié du travail. Voilà le temps nécessaire pour qu’une variation de la mobilité (par exemple à cause d’un confinement) fasse pleinement son effet.

Quelle est la conclusion générale que je tire de tout cela ?

En France, la deuxième vague est² à peu près au niveau de la première vague le 25 mars, en forte croissance (R=1,2, doublant tous les 20 jours, pic de soins intensifs dans 25 jours).
Il n’y a pas de différence significative dans la répartition par âge de la pandémie entre la première et la deuxième vague si ce n’est que les personnes âgées vont plus en soins intensifs. Les soins hospitaliers soient plus efficaces (amélioration de 25 %), mais se détériorent et sont sans grande différence pour les personnes les plus âgées.
D’après les données de Google sur la mobilité, toute mesure prise aura un impact dans les données hospitalières avec un décalage de 10 à 14 jours.

Sources

Calcul fait le 26 octobre.
Calcul fait le 26 octobre.

Crédits

Cet article est la reprise d'un thread Twitter publié en anglais sur le compte Twitter @jeuasommenulle : https://twitter.com/jeuasommenulle/status/1320682084973858816