next up previous contents
Next: Un modèle simple la Up: Éléments primaires de la Previous: La précision, source d'incertitude.

Raisonnement probabiliste en statistiques.

Afin d'illustrer ce qu'est le raisonnement probabiliste en statistique appliquée, j'emprunte un excellent exemple tiré du livre intitulé: <<Éléments de modélisation et traitement primaire des données>> de Sergheï Aïvazian, Lev Méchalkine et Igor Enukov (1986) éditions MIR, Moscou. Je me suis d'ailleurs inspiré de ce livre pour donner un titre à ma conférence, énormément de passages de ce livre seraient accessibles d'après moi à des étudiants de sciences humaines mais il y a des passages trop mathématiques, j'ai repris les pages 41-43 en éliminant ce qui était trop mathématique.

Alexis et Boris sont assis devant une table avec un jeu de dés, et aussi une bouteille de vodka, ils ont quatre dés. Alexis lance les quatre dés, si il obtient au moins un six, Boris doit lui donner un rouble, si par contre il n'obtient aucun six c'est lui qui doit donner un rouble à Boris. Les dés utilisés par Boris et Alexis sont des cubes à six faces, chacune portant un chiffre dessus de 1 à 6, et non de ces dés modernes utilisés dans les jeux de rôles, tel que <<donjons et dragons>> qui peuvent avoir 4 ou 12 ou 20 faces.

Arrive Sergueï, il observe Boris et Alexis en train de jouer, il a envie de gagner quelques roubles et il se demande si il doit prendre la place d'Alexis et miser sur l'apparition du six ou celle de Boris et miser sur la non apparition du six. Sergueï est patient il attend que Boris et Alexis aient joué 100 fois et il note qui a gagné. Il se trouve que 52 fois c'est Boris qui a gagné et 48 fois Alexis. C'est à dire que sur 100 lancers de quatre dés, il y a 52 lancers où cours desquels le 6 n'est pas apparu et 48 lancers où cours desquels le 6 est apparu. La non apparition du 6 a été plus fréquente que l'apparition du 6 et Segueï conclut qu'il doit prendre la place de Boris et miser sur la non apparition du 6. Sergueï applique un raisonnement statistique. La fréquence observée de la non apparition du 6 est 0,52 et 0,52 > 0,50.

Survient Piotr, lui aussi a envie de jouer et de gagner quelques roubles. Ce que remarque Piotr tout de suite c'est que les dés sont ordinaires, ont une forme géométrique régulière, et qu'ils sont symétriques et il en déduit que chacune des faces d'un dé a la même chance d'apparaître que les autres faces du dé et que donc chaque face du dé a une chance sur six d'apparaître, à partir de là en appliquant un calcul de probabilités assez simple il essaye de connaître qu'elle est la chance que le 6 n'apparaisse pas en lançant 4 dés à la fois. La probabilité que le 6 n'apparaisse pas en un lançant un dé est égale à la somme des probabilités d'apparition du 1, du 2, du 3, du 4 et du 5, soit 5/6 (cinq sixièmes). Les quatres lancers de dés étant considérés comme indépendants, la probabilité que le 6 n'apparaisse pas en lançant quatre dés est le produit des probabilités de la non apparition du 6 à chacun des dés soit (5/6).(5/6).(5/6).(5/6)=625/1296=0,482. La probabilité d'apparition du 6 est donc 1-0,482=0,518 et comme 0,482 < 0,518, Piotr en déduit qu'il doit prendre la place d'Alexis et miser sur l'apparition du 6. Le raisonnement utilisé par Piotr est un raisonnement de type probabiliste.

Les deux raisonnements de Piotr et de Sergueï arrivent à des conclusions différentes, cela est heureux car cela leur permettra de jouer, mais il semble nécessaire de lever l'ambiguïté. C'est le but de la statistique mathématique qui se veut être une synthèse des deux approches précédentes. La prise de décision en statistique mathématique s'appuie à la fois sur les observations statistiques que sur les résultats fournis par le modèle probabiliste. En particulier, ce modèle ne postule plus la symétrie des dés, on admet que le dé soit déformé et que la probabilité d'apparition des faces n'est plus la même pour toutes les faces. On utilise ici la définition naïve de la probabilité d'apparition du 6 comme la limite de la fréquence d'apparition du 6. Le problème est qu'il faut que le nombre de lancers soit suffisamment grand. À l'aide de calcul probabilistes, utilisant le théorème <<Central Limite>>, on peut déterminer un intervalle de confiance à 95% pour l'estimation de la probabilité de non apparition du 6 en quatre lancers. De manière approchée on trouve que cette probabilité p est telle que:

0,52-0,10 < p < 0,52+0,10

Les observations issues des cent parties nous permettent seulement de conclure que la probabilité de l'événement <<non-six>> peut être un nombre quelconque de l'intervalle [0,42 ; 0,62], c'est à dire qu'elle peut être aussi bien inférieure à 0,5, auquel cas il vaut mieux miser sur l'apparition du 6, que supérieure à 0,5, et dans ce cas là il vaut mieux miser sur la non apparition du 6.

On ne peut conclure quel est l'événement le plus probable, on ne peut, par exemple, pas détecter si les dés sont pipés. L'attitude raisonnable, dans le cadre d'un raisonnement de statistique mathématique est d'attendre que le nombre d'expériences soit suffisamment grand pour que l'intervalle de confiance pour la probabilité de non apparition du 6 soit situé entièrement à gauche ou entièrement à droite de la valeur 0,5.

Cet exemple illustre le rôle et la vocation des méthodes probabilistes et de la statistique mathématique ainsi que ce qui relie les deux. La théorie des probabilités offre un ensemble de modèles mathématiques permettant de décrire les lois régissant des événements ou le comportement de systèmes fonctionnant sous l'effets de facteurs aléatoires. La statistique mathématique permet de sélectionner dans un ensemble de modèles probabilistes celui qui correspond le mieux, dans un certain sens, aux données dont on dispose.

La situation présentée dans cet exemple est exactement celle que l'on observe dans le cadre des sondages, sondages d'opinion entre autres, les instituts de sondage en France ont une présentation purement descriptive et donnent le pourcentage de manière brute, sans construction d'intervalles de confiance. Dans la terminologie des sondages, l'intervalle de confiance s'appelle une fourchette. Dans le cadre des sondages, le but d'une approche de type statistique mathématique est d'arriver à construire des fourchettes. Grossièrement avec 100 observations ou 100 personnes sondées on a avec une confiance égale à 95%, des intervalles de 10% de part et d'autre de la valeur estimée. En Grande Bretagne les instituts de sondage sont obligés de donner les intervalles d'estimation, il semble que petit à petit cela devienne une norme en France aussi.


next up previous contents
Next: Un modèle simple la Up: Éléments primaires de la Previous: La précision, source d'incertitude.
Joseph Saint Pierre
1998-11-24