Après avoir insisté sur l'utilisation des probabilités en statistique, il me semble nécessaire d'affirmer que la démarche exploratoire est nécessaire et préalable à toute tentative de modélisation. Si une variable doit être mise dans une analyse de type régression ou analyse de variance il est nécessaire d'étudier sa distribution. Il est donc vivement recommandé de faire un tri simple sur toutes les variables qualitatives, ce que l'on appelle parfois un tri-à-plat, pour les variables quantitatives, on peut calculer les paramètres statistiques usuels, moyenne, écart type, médiane, maximum, minimum, et je recommande chaleureusement l'utilisation des boîtes de dispersion, appelées boxplot en anglais et parfois en français boîtes à moustaches ou boîtes à pattes selon les logiciels. La phase exploratoire est nécessaire pour détecter les erreurs de saisie de données ou les erreurs de codages, mais aussi les valeurs dites aberrantes. Une compréhension ou une interprétation des valeurs aberrantes est un préalable aux traitements plus sophistiqués. Les valeurs aberrantes peuvent avoir une trop grande importance dans un modèle statistique. Mais la démarche exploratoire a ses limites, la vision probabiliste des statistiques n'est pas là pour observer des données mais pour prédire des valeurs à partir de données observées, si on fait de la modélisation c'est pour interpoler, extrapoler; c'est typiquement la situation du sondage. Il faut noter que souvent même si on l'ignore consciemment, on fait de l'extrapolation à partir de méthodes qualifiées d'exploratoires.
Voilà ce que donne une simple commande de SPSS sur la variable fréquence seuil.
Description statistique simple de la variable <<fréquence au seuil>>:
Nombre d'observations 25 Moyenne 169.88 Médiane 170 Minimum 165 Maximum 177 Range 12 Variance 10.6933 Écart Type 3.2701 Std Err .6540 Boîte de dispersion | 180 + | | --+-- | | | +-+-+ | | * | | | | | +-+-+ | --+-- | | 160 + | | | | +-----------------
Une version graphique de ce diagramme a été mise à la fin de ce document dans sa version postscript. On remarque qu'il n'y a pas de valeurs aberrantes et que la distribution n'est sans doute pas éloignée de la normalité. Un autre graphique, non présenté ici, l'a confirmé.