Next: La revanche de Platon Up: Éléments primaires de la Previous: Exemple de raisonnement du

modèle ?

Attention en statistique, ce n'est parce qu'un modèle est bon au sens des critères usuels des statisticiens, dont j'ai parlé dans le séminaire précédent, que le modèle a une quelconque validité, l'interprétation d'un modèle statistique doit toujours se faire en regardant le sens des variables utilisées. Une phrase telle que <<X explique Y>> , ou <<la variable indépendante explique bien la variable dépendante>> sont vides de sens, la deuxième est même absurde d'un point de vue réthorique, une variable indépendante qui explique c'est un oxymoron comme sombre clarté ou silence assourdissant... Il est très important, à mon avis, de savoir nommer correctement les variables, de manière à savoir ce qu'elles représentent sur le plan concret, il est, de même, important de savoir nommer les modalités pour les variables qualitatives. Dans la terminologie du logiciel SPSS, qui a d'ailleurs été reprise par d'autres logiciels, mettre des étiquettes sur les variables et les modalités s'appelle faire un dictionnaire. Faire le dictionnaire, est à mon avis, une étape essentielle, dans un traitement de données en sciences humaines (ou autres). Un tel sujet nécessiterait un développement important mais nous éloignerait trop des objectifs de cet exposé. Je conseille encore la lecture de <<La mal-mesure de l'homme>> de Stephen Jay Gould, Odile Jacob, 1997, dans lequel sont mentionnés quelques exemples de modèles qui marchent d'un point de vue statistique mais qui n'ont aucun sens concret. Stephen Jay Gould cite par exemple le fait que l'on puisse expliquer le prix de l'essence par son âge, quand son âge augmente le prix de l'essence augmente et la corrélation est forte, de même le prix du beurre peut être expliqué par la distance entre les étoiles de notre galaxie, plus les étoiles s'éloignent les unes des autres et plus le beurre est cher, c'est vrai mais cela ne veut rien dire même pour un astrologue. De manière réciproque ce n'est pas parce qu'un modèle étudié est <<mauvais>>, qu'il n'est pas pertinent, qu'il n'apporte pas d'information. Un décalage entre un modèle et les observations peut être une appréciable source d'information. C'est d'ailleurs une démarche intéressante dans la recherche, je cite pour cela deux exemples tirés du l'autobiographie de Laurent Schwartz, voici un extrait du livre: <<Au cours d'une recherche, il arrive qu'un accident se produise et jette le trouble. Si l'on se contente d'en être ennuyé, ce n'est généralement pas suffisant. Il faut chercher d'où vient le trouble, ce qui ici encore, nécessite une certaine curiosité. Il arrive qu'on s'aperçoive d'un fait beaucoup plus important que toute la recherche qu'on faisait antérieurement. Il faut alors abandonner la première recherche pour passer à la seconde qui donnera des résultats bien plus fructueux. C'est une chose courante. La recherche nécessite donc un esprit toujours mobile, toujours original, toujours prêt à des révolutions, et très opiniâtre pour aller jusqu'au bout des difficultés. Elle exige le courage et la curiosité. Je donne couramment l'exemple de Fleming, ce biologiste qui étudiait des cultures bacillaires. Un jour il s'aperçut que l'une de ces cultures avait été envahie par des champignons. Au lieu de la jeter, il eut la curiosité de l'examiner, et il vit que tous les bacilles avaient disparu. Il eut le courage d'abandonner sa recherche antérieure pour y réfléchir. Ce fut la découverte de la pénicilline; la pénicilline était un produit du champignon qui tuait les bacilles, c'est une méthode de défense du champignon. La découverte de la pénicilline a été beaucoup plus importante que celle sur laquelle travaillait initialement Fleming. Tout le monde n'est pas Fleming, mais il est bon d'avoir une pareille curiosité. On peut aussi rappeler que Christophe Colomb, obsédé par l'idée de trouver la route occidentale des Indes découvrit l'Amérique.>> L'idée que la terre est ronde était fort ancienne, on la doit à Pythagore (580-500 avant JC), mais l'idée d'en faire le tour fut tardive, faute de moyens suffisants; le modèle utilisé par Colomb n'était pas absurde mais comportait deux <<erreurs>> importantes. Une erreur sur les dimensions de la sphère terrestre et surtout, la présence non prévue de terres importantes barrant la route des Indes. En modélisation statistique des données on a souvent à faire face à des situations qui ont une certaine analogie avec la situation de Colomb. Par exemple dans une régression linéaire une valeur qui ne s'ajuste pas à la droite de régression est appelée valeur aberrante, cette appellation pose problème, il est possible que pour un chercheur, ce soit justement cette valeur qui offre le plus d'intérêt et qui soit le point de départ d'une nouvelle étude. Le phénomène fréquent qui se produit, chez les utilisateurs de la statistique, est de croire à la valeur des modèles en raison des mathématiques qui sont utilisées dans le modèle. Stephen Jay Gould le dit de la façon suivante :<< L'esprit de Platon a la vie dure. Nous sommes incapables d'échapper à cette tradition philosophique qui veut veut que ce que nous voyons et mesurons dans le monde ne soit que la représentation superficielle et imparfaite d'une réalité cachée. L'essentiel de la fascination des statistiques tient dans ce sentiment viscéral - Méfiez vous toujours des sentiments viscéraux - que les mesures abstraites résumant des grands tableaux de données doivent exprimer quelque chose de plus réel et de lus fondamental que les données elles mêmes. Pour acquérir un bon niveau professionnel, les statisticiens doivent faire un effort conscient pour contrebalancer cette tendance naturelle.>>

Next: La revanche de Platon Up: Éléments primaires de la Previous: Exemple de raisonnement du

Joseph Saint Pierre
1998-11-24