Envoyer à un ami | Version à imprimer | Version en PDF

Modèles probabilistes en épidémiologie et le Covid-19

par Tahar Mourid*

Nous présentons le modèle de Galton-Watson (ou modèles de branchement) qui permet de décrire des dynamiques de populations. De nombreuses applications de ces modèles sont faites en épidémiologie en particulier

dans le domaine de la propagation des virus.

L'étude de ces modèles et leur comportement repose sur un paramètre crucial appelé taux moyen de reproduction (ou taux moyen de contamination ou taux moyen d'infection) et sa comparaison à la valeur critique 1. Nous étudions ce problème dans ce qui suit pour comprendre l'importance de la valeur critique 1 sur le comportement du modèle et ses applications en épidémiologie en particulier dans la propagation du virus Covid-19 .

Nous décrivons d'abord le modèle de référence qui est le processus de Galton-Watson ( en référence aux mathématiciens anglais Francis Galton ( 1822-1911) et Henry William Watson ( 1827-1903). Ces processus portent plus généralement le nom de processus de branchement (Processus de naissance et de mort, Branching Process). Il existe de nombreux ouvrages décrivant en détail ces modèles et les résultats obtenus sont de plus en plus profonds et nécessitent des techniques d'analyse très fines. Dans ce qui suit nous abordons le modèle de référence de Galton-Watson et par la suite nous indiquons quelques éclairages quant à son application à la propagation du virus Covid-19.

A l'origine, ce modèle a été introduit en démographie pour étudier l'extinction de certains noms de familles en Angleterre au 19e siècle. Le nom de famille se transmet de génération en génération par les fils (pour les filles en se mariant elles portent d'autres noms de famille). Si à une génération donnée il n'y a plus de fils alors aucun ne portera ce nom de famille et on dit alors qu'il y a extinction (ou disparition) de ce nom de famille. Plus précisément, nous avons un ancêtre (représentant la génération 0) qui donne naissance à des descendants pour la génération 1. Le nombre descendants engendré par l'ancêtre et formant la génération 1 peut être 0, 1, 2,?individus. Puisque il y une incertitude (un aléa) sur ce nombre de descendants, cela se traduit par dire que le nombre d'individus de la génération 1 est une variable aléatoire discrète Z prenant ses valeurs dans les nombres entiers {0, 1, 2, ?}. La variable aléatoire Z prend chaque valeur de l'ensemble {0, 1, 2, ?} avec une incertitude ou probabilité : Pr(Z=k)=pk = probabilité que Z prend la valeur k est pk , qui est aussi la probabilité d'avoir k descendants pour la génération 1, pk est entre 0 et 1 et leur somme vaut 1. Ceci engendre une loi de probabilité PZ sur les entiers naturels : PZ (k)= Pr(Z=k)=pk appelée loi de reproduction. Pour des rappels sur des notions sur les variables aléatoires nous renvoyons au «Le Quotidien d'Oran» du 11 Janvier 2020 (p. 8).

Ainsi de suite la génération n engendrera des descendants pour la génération n+1 de la façon suivante : chaque individu « i » de la génération n engendrera un nombre Zi de descendants pour la génération n+1 en suivant la même loi de reproduction décrite ci-dessus : Pr(Zi=k)=pk = PZ (k), c'est-à-dire la loi de probabilité Z. Ainsi nous supposons que les individus d'une génération ont même loi de reproduction et ne dépendent ni de l'individu « i » ni de la génération n. Ces conditions restrictives sur la loi de reproduction permettent de simplifier l'étude du modèle.

Cependant par exemple pour les individus d'une génération donnée (frères ou cousins), ces conditions signifient pour des frères (génération 1) ou cousins, d'avoir la même loi de reproduction.

Néanmoins dans la réalité ceci n'est pas vérifié en général et dépend en grande partie du statut social de chaque individu (plombier, ingénieur, médecin, etc.).

Si on note Xn = le nombre d'individus de la génération n, et Xn+1 = le nombre d'individus de la génération n+1, on a la relation suivante :

Xn+1 = Z1 + Z2 +? + ZXn (*)

puisque chaque individu i de la génération n donnera naissance à Zi individus à la génération n+1 et i=1,2 ?, Xn, et il y a Xn individus dans la génération n. La suite (Xn)n est une chaîne de Markov homogène. Un des problèmes importants étudié dans ce modèle est l'extinction de la chaîne (Xn)n : existe-il un entier n0 fini tel que Xn0 = 0. Par conséquent on aura Xn = 0 pour tout n supérieur à n0 et on obtient ainsi l'extinction de la chaîne (Xn)n (ou encore extinction du nom de famille).

Ce problème est abordé de la manière suivante : Pr (il existe n0 tel que X n0 = 0) = probabilité qu'il existe n0 tel que X n0 = 0 (partant d'un ancêtre). Elle sera notée â.

La probabilité â est appelée probabilité d'extinction de la chaîne de Markov. Il s'agit d'évaluer cette probabilité. Si la probabilité â est égale à la valeur 1 alors on est presque sûr de l'extinction de la chaîne ( il existe n0 fini tel que X n0 = 0). En revanche si elle est strictement inférieur à 1 on des chance de survie pour la chaîne (Xn)n (des valeurs de â très proches de la valeur 0 indiquent une très grande survie de la chaîne ou très grande survie du nom de famille !).

Pour évaluer la probabilité d'extinction â, on utilise la fonction génératrice des moments de la loi de reproduction de la variable Zi. Cette fonction est définie par : g(t)= «ktk Pr(Zi=k) . Un résultat fondamental sur le modèle de Galton-Watson est le suivant.

Résultat Fondamental. Sous des conditions nous avons :

1. la probabilité d'extinction â la plus petite racine de l'équation : g(â)= â

(c'est-à-dire que â est un point fixe de la fonction génératrice g).

2. Si µ est la moyenne de la loi de reproduction de la variable Zi.

Si µ=E(Z) < = 1 (est inférieur ou égale à 1) alors â=1 (extinction presque sûre de la chaîne (Xn)n: il existe n fini tel que Xn = 0).

Si µ=E(Z) >1 alors 0<= â<1 ( il y a survie et pas d'extinction sîre de la chaîne (Xn)n).

Remarque. Ainsi la survie de la chaîne est liée à la valeur critique 1 prise par la moyenne µ=E(Z) (µ = taux moyen de reproduction).

A. Si µ=E(Z) <= 1 alors il y a extinction (presque sûre) de la chaîne (Xn)n. Il reste le problème de la détermination de l'entier n0 pour lequel X n0 =0. On procède souvent par des simulations numériques avec des choix variés de la loi de reproduction de Z.

B. Si µ=E(Z) >1 alors il y 'a survie de la chaîne (Xn)n. Si µ=E(Z)=1.25 cela signifie chaque individu engendre en moyenne 1.25 enfant ! pour la génération d'après (par exemple une estimation empirique : une génération de 100 individus qui engendre 125 descendants pour la génération d'après). Pour le calcul de la probabilité d'extinction â voir Exemple 2 ci-dessous.

Pour illustrer numériquement le résultat fondamental nous donnons deux exemples :

Exemple 1. Si la loi de reproduction de Zi suit une loi binomiale B(n,p) avec n= 3 et p=1/4.

Ce qui signifie que Pr(Zi =k)=C3k(1/4)k(3/4)3-k, k=0,1,2,3. Par exemple la probabilité d'avoir 0 descendants est 0.42 (assez importante !) et la probabilité d'avoir 3 descendants est 0.015 (assez faible) etc. Le taux de reproduction µ=E(Z)=3/4=0.75. Par suite µ=E(Z) < 1 et donc la probabilité d'extinction â =1. Dans ce cas l'extinction est presque sûre de la chaîne (Xn)n (ou disparition du nom de famille).

Exemple 2. Si la loi de reproduction de Zi suit une loi binomiale B(n,p) avec n= 3 et p=2/3.

Ce qui signifie que Pr(Zi =k)=C3k(2/3)k(1/3)3-k, k=0,1,2,3. Par exemple la probabilité d'avoir 0 descendants est 0.037 (assez faible ) et la probabilité d'avoir 3 descendants est 0.29 etc.

Le taux de reproduction µ=E(Z)=2. Par suite µ=E(Z) > 1 et donc la probabilité d'extinction â : 0<= â<1. Dans ce cas nous n'avons pas l'extinction de la chaîne. Pour trouver la valeur de â on sait qu'elle vérifie g(â)= â où g(t)= «ktk Pr(Zi=k) (qui est un polynôme du 3e degré avec 1 comme racine). Un calcul donne â=0.049. Ainsi la probabilité d'extinction â est assez faible et donc il y'a une « assez grande » survie de la chaine (Xn)n ( ou survie du nom de famille).

On peut transposer les résultats précédents sur le modèle de Galton-Watson au cas de la propagation du virus Covid-19. Nous utilisons la terminologie introduite ci-dessus. Pour simplifier au maximum on suppose que nous avons un ancêtre (cas 0) qui porte le virus Covid-19 et que la contamination a lieu dans une population isolée de l'extérieur (pas d'apport de contamination extérieur).

Cet ancêtre engendre une génération 1 par contamination suivant une « loi de reproduction » (ou loi de contamination) d'une variable aléatoire Z : Pr(Z=k)=pk = la probabilité d'avoir contaminé k individus pour la génération 1.

Après le cas 0 est détecté et soigné et par la suite il n'intervient plus dans la contamination. La génération 1 de contaminés va engendrer à son tour une génération 2 de contaminés en suivant la même loi de contamination de la v.a. Z.

Ainsi de suite, la génération n (n représente par exemple le jour, puisque actuellement les relevés sont journaliers) engendrera des descendants contaminés pour la génération n+1 de la façon suivante : chaque individu « i » de la génération n engendrera un nombre Zi de descendants contaminés pour la génération n+1 suivant la même loi de contamination ci-dessus : Pr(Zi=k)=pk = PZ (k), c'est-à-dire la loi de probabilité Z. Sa moyenne µ=E(Z) (ou taux de contamination) représente la moyenne des individus contaminés par un individu atteint du Covid-19. Ainsi la loi de contamination est la même et ne dépend ni de l'individu « i » ni de la génération n. Ces conditions restrictives simplifient l'étude du modèle.

On note Xn = le nombre d'individus contaminés de la génération n, on a la relation (*) ci-dessus entre Xn et Xn+1 = le nombre d'individus contaminés de la génération n+1.

Le problème majeur ici est l'extinction de la chaîne (Xn)n : existe-il une génération n0 avec 0 contaminés qui se traduit par il existe un entier n0 fini tel que Xn0 = 0 ? Par conséquent on aura Xn = 0 pour tout n supérieur à n0 et ainsi on aura l'extinction de la chaîne (Xn)n (ou extinction de la contamination). Comme exposé en première partie, il s'agit d'évaluer la probabilité d'extinction â de la chaîne (Xn)n : â :=Pr( il existe n0 tel que X n0 = 0). D'après le résultat fondamental ci-dessus, son évaluation repose sur la détermination de la moyenne de reproduction µ=E(Z) (appelée aussi taux de contamination) :

A. Si µ=E(Z) <= 1 alors il y a extinction (presque sûre) de la chaîne (Xn)n et donc l'extinction de la contamination ! Il reste à donner une estimation empirique de la moyenne µ=E(Z)! La relation (*) donne la formule suivante : E(Xn+1 )= E(Xn+1 )

Xn+1 E(Z ) et ainsi on a : µ =E(Z)= E(Xn+1 )/ E(Xn ). Un premier estimateur serait µn = Xn+1 / Xn . Il s'agit de comparer cet estimateur à la valeur critique 1. Si µn <= 1 pour tout n (ou un grand nombre de n! ) ce qui signifie Xn+1 <=Xn (qui indique que le nombre de contaminés décroît de manière régulière et révèle une tendance à la baisse) alors on aura l'extinction de la contamination ! Il reste le problème de la détermination de l'entier n0 pour lequel X n0 = 0. Il se fait souvent par des simulations numériques avec des choix variés de la loi de contamination de Z.

B. Si µ=E(Z) >1 alors il y 'a survie de la contamination.

On utilise de nouveau l'estimateur µn = Xn+1 / Xn et le comparer à la valeur critique 1. Si µn >1 pour tout n ! qui signifie Xn+1 >Xn (qui indique que le nombre de contaminés croît de manière régulière et révèle une tendance à la hausse) et par suite on aura la survie de la contamination ! Pour éclaircir cette tendance à la hausse et son importance, il faut évaluer la probabilité d'extinction â et voir si elle est proche de 1 (extinction probable de la contamination) ou proche de 0 ( grande survie de la contamination). Cela se fait par une estimation de la loi de contamination de Z. Cela fournit un estimateur pour la fonction génératrice des moments g. Ainsi on obtient un estimateur ân de La probabilité d'extinction â qui vérifie : gn(ân)= ân .

En conclusion, partout dans le monde les instituts de santé surveillent de très près l'estimation du taux moyen d'infection µ=E(Z). Si l'estimation du taux moyen d'infection µ dépasse la valeur critique 1 (par exemple la zone de 1 à 1.1 est considérée comme potentiellement dangereuse), des conclusions sur des mesures de restrictions et de confinement sont immédiatement à l'ordre du jour.

*Professeur de Statistiques - Laboratoire de Statistiques et Modélisations Aléatoires - Université ABB Tlemcen