next up previous contents
Next: Mise en liaison des Up: Éléments primaires de la Previous: Un jeu de données.

Phase exploratoire préliminaire

Après avoir insisté sur l'utilisation des probabilités en statistique, il me semble nécessaire d'affirmer que la démarche exploratoire est nécessaire et préalable à toute tentative de modélisation. Si une variable doit être mise dans une analyse de type régression ou analyse de variance il est nécessaire d'étudier sa distribution. Il est donc vivement recommandé de faire un tri simple sur toutes les variables qualitatives, ce que l'on appelle parfois un tri-à-plat, pour les variables quantitatives, on peut calculer les paramètres statistiques usuels, moyenne, écart type, médiane, maximum, minimum, et je recommande chaleureusement l'utilisation des boîtes de dispersion, appelées boxplot en anglais et parfois en français boîtes à moustaches ou boîtes à pattes selon les logiciels. La phase exploratoire est nécessaire pour détecter les erreurs de saisie de données ou les erreurs de codages, mais aussi les valeurs dites aberrantes. Une compréhension ou une interprétation des valeurs aberrantes est un préalable aux traitements plus sophistiqués. Les valeurs aberrantes peuvent avoir une trop grande importance dans un modèle statistique. Mais la démarche exploratoire a ses limites, la vision probabiliste des statistiques n'est pas là pour observer des données mais pour prédire des valeurs à partir de données observées, si on fait de la modélisation c'est pour interpoler, extrapoler; c'est typiquement la situation du sondage. Il faut noter que souvent même si on l'ignore consciemment, on fait de l'extrapolation à partir de méthodes qualifiées d'exploratoires.

Voilà ce que donne une simple commande de SPSS sur la variable fréquence seuil.

Description statistique simple de la variable <<fréquence au seuil>>:

 Nombre d'observations    25


 Moyenne     169.88
 Médiane     170
 Minimum     165
 Maximum     177
 Range        12
 Variance     10.6933
 Écart Type    3.2701
 Std Err      .6540

Boîte de dispersion

           |
       180 +
           |
           |    --+--
           |      |
           |    +-+-+
           |    | * |
           |    |   |
           |    +-+-+
           |    --+--
           |
           |
       160 +
           |
           |
           |
           |
           +-----------------

Une version graphique de ce diagramme a été mise à la fin de ce document dans sa version postscript. On remarque qu'il n'y a pas de valeurs aberrantes et que la distribution n'est sans doute pas éloignée de la normalité. Un autre graphique, non présenté ici, l'a confirmé.


next up previous contents
Next: Mise en liaison des Up: Éléments primaires de la Previous: Un jeu de données.
Joseph Saint Pierre
1998-11-24