Joseph SAINT PIERRE,
Centre Interuniversitaire
de Calcul de Toulouse
118, Route de Narbonne
31062 Toulouse Cedex 04
Tél: 05 61 36 60 21
Fax: 05 61 52 14 58
e-mail: Joseph.Saint-Pierre@cict.fr
Vendredi 26 Février 1999
Cet exposé comme le précédent est consacré à l'exploration statistique
d'un même fichier de données. Le but de ces exposés, plus que de
montrer des méthodes statistiques est de montrer une démarche possible
en utilisant plusieurs types de méthodes.
Ce document correspond à la deuxième partie de l'exposé et est donc
incomplet, le plan et la rédaction de cette partie sont aussi très
informels. Éventuellement un document complet sera rédigé en intégrant
les deux parties et en faisant une structuration. Il faut donc voir ce
document comme un outil permettant de suivre l'exposé oral
correspondant. De plus ces données font l'objet d'une étude plus
poussée par une équipe de recherche à laquelle appartiennent les
données.
Il est inutile de rappeler par écrit le contexte de l'étude, il suffit
de reprendre le document du premier exposé pour se remettre dans le
bain.
En premier lieu, il est sans doute intéressant de revenir sur
certaines questions qui ont été posées lors du premier exposé. La
question la plus gênante fut de savoir si le but de ces exposés était
d'apprendre aux auditeurs à faire des statistiques. La réponse fut
bien évidemment oui. Mais il s'agit de préciser certains points, il
est hors de question de comprendre en quelques heures toutes les
méthodes statistiques présentées. Le but original de ces conférences
n'est surtout pas de se substituer à des cours de statistiques
traditionnels, mais plutôt de sensibiliser l'auditoire à l'intérêt des
statistiques. Par ailleurs il s'agit de conférences s'adressant à un
public assez hétérogène et il est difficile de connaître le point de
départ de chacun des auditeurs, l'organisation de cours avec séance de
TP sur ordinateurs se fera, à partir de liste d'inscription permettant
de mieux cibler le contenu.
Il paraît bon, aussi de signaler que l'année dernière, dans le cadre
des conférences pluridisciplinaires de l'IED, plusieurs exposés ont
été consacrés à des méthodes statistiques de manière plus précise. Le
15 Mai 1998, notamment, il y a eu un exposé sur les méthodes
d'analyses factorielles (ACP, AF, AFC etc.). Dans le cadre des exposés
du 15 Janvier 1999 et d'aujourd'hui, il est largement fait appel à ces
techniques mais il est hors de question de refaire un exposé sur
celles-ci. Les personnes intéressées par une présentation des analyses
factorielles peuvent récupérer le texte de la conférence du 15 Mai
1998 à l'IED.
Une question a été posée dès le début pour demander comment avait été
notée la modalité <<non réponse>> dans le traitement quantitatif.
L'option qui a été choisie fut de ne pas prendre en compte celles-ci
et de ne faire les calculs de moyennes et de variances uniquement avec
les données 1, 2, 3, 4 et 5. Ce qui était suggéré dans la
question était de remplacer la <<non réponse>> par un 0. J'ai depuis
le dernier exposé refait les calculs en prenant cette option, cela
donne des changements qui pour certains mots sont assez nets, à titre
d'exemple le mot mansuétude (16) passerait de la place 165 à la
place 185 si on comptait 0 pour les 73 réponses manquantes, le
mot décentration (7) passerait de la place 154 à la place 172 et
enfin le mot ascèse passerait de la place 204 à la place 210 soit
l'avant dernière. De par un jugement simple, on peut émettre l'idée
que mansuétude et ascèse sont des mots frappés d'obsolescence, alors
que décentration serait plutôt un néologisme, de ce point de vue là
les raisons de la forte absence de réponse apparaissent comme
diamétralement opposées. Dans une première lecture du questionnaire,
le seul mot que je ne connaissais pas était le mot décentration et
c'est le seul auquel je n'aurais pas mis de réponse mais, après
enquête, le concept m'a paru important et ne pas mériter un 0. C'est
peut être à partir de cette impression purement personnelle qu'il m'a
paru préférable de ne pas mettre 0 pour les données manquantes. Une
alternative aurait été d'éliminer de l'étude les mots ayant trop de
réponses manquantes, mais cela ne faisait pas partie de mon travail.
Il y a eu, au moment de la présentation de l'AFC simple, une question
sur l'interprétation de la proximité entre les modalités 2 et les
modalités <<non réponse>> et le relatif éloignement entre les
modalités 1 et les modalités <<non réponse>>. Cette question
pourrait presque être reliée à la question précédente, en effet de
façon naïve on peut penser que les mots inconnus représentent des
choses pas du tout importantes pour les répondants, si tel était le
cas on devrait observer une ligne droite et les modalités <<non
réponse>> devraient se trouver dans l'alignement des modalités 5,
4, 3, 2 et 1. L'AFC simple nous indique que cette linéarité
n'est vraisemblablement pas pertinente pour décrire ces données. Ceci
étant, une remarque faite lors de l'exposé précédent me paraît
expliquer en partie ce décalage, il y a une différence évidente entre
le mot et le concept (valeur) associé. Quant à savoir ce qu'ont
pensé, des divers mots, les répondants il n'est pas possible de le
savoir.
Par ailleurs j'ai reçu, par courrier électronique, une contribution
très intéressante à l'analyse du dernier tableau présenté dans le
document de l'exposé du 15 Janvier 1999, où était donnés les
classement des 211 mots pour les quatre groupes définis par le sexe
et la filière. Le contributeur s'est proposé l'objectif suivant: <<Le
but est de trouver les mots avec le plus grand contraste entre les
groupes filles Mirail d'un coté et filles IUT puis entre les groupes
garçons Mirail et garçons IUT.>> Par un petit calcul élémentaire que
je ne détaille pas on peut s'apercevoir que les mots qui sont les plus
caractéristiques des filles de l'IUT par rapport aux filles du Mirail
sont: dynamisme (39), joie (93), combativité (59), séduction
(209), plaisir (36), loisir (11), ambition (166), travail
(160), organisation (72), persévérance (4) et progrès (20).
Les mots les plus caractéristiques des filles du Mirail par rapport à
celles de l'IUT sont: tolérance (152), bonté (137), affection
(19), authenticité (150), espérance (77), sensibilité (32) et
patience (123). Les mots les plus caractéristiques des garçons de
l'IUT par rapport à ceux du Mirail sont: plaisir (36), ambition
(59), combativité (59), passion (174), sincérité (183),
sécurité (162), indépendance (122), loisir (11), complicité
(69), innovation (40), intelligence (66), dynamisme (39),
intimité (71), joie (93), action (58) et séduction
(209). Enfin les mots qui caractérisent le plus les garçons du
Mirail par rapport à ceux de l'IUT sont: tolérance (152),
autocontrôle (80), respect (170), loyauté (1), sagesse (177),
intuition (168), curiosité (100), féminité (97), altruisme
(176), douceur (82), espérance (77), égalité (65), bonté
(137) et connaissance (81). L'interprétation qui m'était fournie
avec cette comparaison était que les étudiants de l'IUT paraissaient
plus ludiques que ceux du Mirail, cela m'a rappelé que le mot <<jeu>>
était absent de la liste des 211.
Enfin une dernière question très importante lors de l'exposé était de
savoir si il y avait des problèmes à faire de l'ACP en l'absence de la
normalité des observations. Cette question a un rapport avec la
démarche de cet exposé. Les variables correspondant à des échelles en
5 points ne sont pas qualitatives mais elles ne sont pas vraiment
quantitatives, certainement pas continues et souvent très éloignées de
la normalité. Nous avons à faire à du qualitatif ordonné et il y a
même un doute sur l'ordre... Il n'y a pas de méthode d'analyse
factorielle parfaitement adaptée à ce type de variables. L'ACP fait
implicitement l'hypothèse que les variables sont normalement
distribuées, en effet l'ACP utilise les corrélations ou les
covariances et ces quantités là ont du sens pour des variables
normalement distribuées. Mais nombreuses sont les situations où l'on
utilise l'ACP sur des variables de ce style, c'est ce que j'ai fait
dans le cadre de l'exposé précédent.
Lors de ce précédent exposé j'ai insisté sur certaines dualités
d'approche et notamment celle concernant la vision quantitative et la
vision qualitative. En présentant le premier tableau avec
simultanément les fréquences de chacune des modalités et les moyennes
et variance de chacune des 211 variables, je montrais la double
approche simple sur ces variables. L'ACP a correspondu à un traitement
pour tenter de résumer les 211 variables, en considérant qu'elles
étaient quantitatives, si l'on considère que ces variables sont
qualitatives une approche possible voisine de l'ACP est l'analyse
factorielle des correspondances multiples ou AFCM. Fondamentalement,
une AFCM est une ACP particulière, il s'agit d'une adaptation de
l'ACP. L'AFCM n'existe pas, à ma connaissance, avec des rotations type
<<varimax>>, au moins dans les logiciels standard que j'utilise. En
anglais, le mot <<factorial>> est réservé pour ce que l'on appelle
parfois en français analyse en facteurs. L'analyse factorielle des
correspondances s'appelle correspondence analysis et non, comme je
l'ai parfois vu, factorial correspondence analysis. Voici ce qu'a
fourni l'AFCM sur ce fichier de données. La représentation graphique
est avec les deux premiers axes mais il faut considérer que le nombre
de modalités est énorme, il y a 820 points cachés.
AXE 1 * AXE 2 AXE 2 ---------------------- 58_ 94_ 70_146_------------------------- ! 10_ ! ! ! ! ! ! ! ! ! ! ! ! 140_ ! 31_ 93_102_161_ ! 1874 53_ 51_0235 ! ! 179_ ! 119_ ! ! 174_ ! 52_062403040175 0185 ! .6 + 18730234203320531674 25_ ! ! 163_ 99_ 59_195_ 48_13342034172_1094 ! ! 134_184_131415730224134415941174 ! ! 33_ 101_ 2052069414631734128418141414 ! ! 84_168_162_1504136416941654190415931914 41_10542054 7_ ! 96_ 81_071408341724114413240313048408541444 ! ! 1382 1264 26_12540272157200742113040401840395 ! ! 71_182_1164105205130024204_ 17_12450515026507850675 ! ! 05630362045319530523160_056507550115020505551485 ! .0 +----------050216920072175302931831fam80655142507951125015502451905 ! 08841843115318231173 54_fam5069511151315192508751175 50_ ! 1583172303541473sco2res1 74_0425136512350435154501651285 1082 0083163201130872187_2031116_0174 98_148_1305115513550225 57_ 215_095316821202132202310731171_ 104516950465044506051945 0052 05030252129313730522211111912051 009203151685099512150485 1162200_1523 79_136314530692 9_192_0171103117950075211_202518551275 169_196_20120842044216721002056201011811 181505250965187518852055 216_ 28_ 82_129206420742092312310301 19_0521 0985 13_156504952105 -.6 + 203_138320031472160202820992007114210421 211513250125 60_1785 178_ 068213520863035205310911060117611371 1445 02811535 188_13121272041204621942113_0471029117310751 0021 165_1095 ! 0892207_072204011801085115811151128_ 21_ 86_ 080208120933186112320151025120411061 0081 ! ! 0582014317221902196117911131054107911111 ! 141_07121222149211821821172106210111063119310921 1691 ! ! 0891070216011671037119411781081118912071107_ 0351 ! 0332 0801 1141145105711971120110111291 1221 -1.2 + 13621262 032200110901076107711631 44_1161 0431 ! ! 1702 11_15410691190115011071 157_ 1021 1381 05610261064108820451202116611391sco5209_15210581 ! 13610832213_00910862046114312101082120910131197_17010941---------+ -1.2 -.6 .0 .6 1.2 AXE 1
Il n'est pas possible de voir grand chose, on peut seulement repérer
quelques amas de modalités semblables, dans la représentation le
numéro de la variable est sur les 3 premiers chiffres le quatrième
chiffre sert à donner la modalité, la donnée manquante se repère par
le symbole souligné <<_>>. On peut apercevoir que le premier axe
oppose un petit peu les modalités 2 et 3 d'un coté et 1 et
surtout 5 de l'autre alors que le deuxième axe oppose la modalité
4 aux autres modalités et surtout 1. Il est nécessaire pour lire
ces résultats d'intégrer d'autres tableaux que je n'ai pas mis ici
pour économiser de la place. Le but n'est pas de lire les résultats
d'une AFCM.
Afin de présenter un résumé du tableau j'ai calculé les moyennes
pondérées par les effectifs correspondants des modalités. Ainsi on
peut mieux voir sur le graphique où se trouvent, plutôt, l'ensemble
des modalités. Les modalités 5 se trouvent à droite, les modalités
4 en haut, les modalités 3 et 2 se trouvent à gauche, les 2étant un peu plus bas et plus à gauche, les modalités 1 se trouvent
en bas et les 6 au milieu.
AXE 1 * AXE 2 AXE 2 ----------------------IUTgCélC--------------------------------- ! ! ! ! ! ! ! ! ! ! 4IMP! ! ! ! ! ! ! ! .2 + ! IUT ! ! ! ! ! garçons ! res3 ! ! ! IUTf ! ! ! 4ème ! ! parents ! ! ! ! ! ! fam7 ! 7_ ! ! Couple ! 3ème RFam ! ! .0 +----------------3MOY-----------------------+--1ère-------------! ! Céli 6NR!fillesfam8 5IMP ! ! ! ! Mirail ! seul ! ! Âge MirF ! MirG ! ! ! ! ! ! ! Indp ! ! 2ème ! ! ! ! ! -.2 + ! ! ! 2PEU ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! -.4 + ! ! ! Doct ! -------+-----------+-----------+---1PAS----+--mari-----+------- -.36 -.24 -.12 .00 .12 AXE 1
On peut voir certaines associations entre les variables illustratives
et les modalités des 211 variables. Mais surtout ce que confirme
cette analyse c'est la non linéarité des mesures, les modalités sont
distribuées de manière presque circulaire. L'AFCM permet comme l'ACP
de regrouper les variables mais aussi les modalités, comme pour
l'approche développée lors du premier exposé nous allons nous
intéresser à la possibilité de discriminer des groupes définis à
priori. Il se trouve que le graphique de l'AFCM suggère que la
différence entre garçons et filles est assez importante dans le choix
des modalités de réponse.
Il existe une méthode assez simple pour détecter les liaisons entre
modalités de variables qualitatives qui consiste à croiser
systématiquement les variables entre elles. Il est fastidieux et long
à analyser d'énormes quantités de tableaux croisés, avec 211variables cela serait énorme. Dans le logiciel SPAD il existe une
procédure qui s'appelle DEMOD (pour description de modalités) qui
permet de rationaliser ce travail en ne gardant que les liaisons qui
sont significatives au sens d'un certain test. Dans les anciennes
versions de SPAD, celle que j'ai commencé à utiliser en 1984 par
exemple, la procédure s'appelait TAMIS, un certain nombre de
statisticiens appellent encore ce principe de croisement par le nom
ancien de cette procédure. Ce principe de croisement se ramène
toujours à des croisements de variables à deux modalités. Si par
exemple on voulait caractériser les modalités de la variable scolarité
par les modalités des 211 variables associées aux mots, le logiciel
commencerait par créer virtuellement autant de variables que de
modalités en jeu dans la procédure de description, chacune de ces
variables est binaire présence contre absence. Dans l'exemple de la
scolarité on a 5 variables, Scolarité1 qui vaut 1 si l'étudiant est
en première année et 2 sinon, puis une variable Scolarité2 qui vaut
1 si l'étudiant est en deuxième année et 2 sinon et ainsi de
suite. On fait de même pour les variables mots, chaque variables
créant 5 ou 6 variables suivant qu'il y ait ou non des <<non
réponses>>. En croisant systématiquement chacune des 5 variables
associées à la scolarité avec chacune des 1201 variables associées
aux 211 mots, le logiciel calcule une statistique de liaison qui
n'est pas le
en ce qui concerne SPAD mais qui en est voisin.
SPAD utilise la loi hyper-géométrique qui est plus justifiée dans le
cas des petits effectifs. Ce que donne sur un cas précis cette méthode
c'est qu'il y a une certaine liaison entre la troisième année d'étude
et la modalité 2 (peu important) de sécurité (176). Cela apparaît
dans un tableau de la façon suivante:
Sécurité Peu imp. 25.00 20.00 20 2.59 .005
Par ailleurs le logiciel SPAD peut fournir le tableau et le correspondant au croisement entre scolarité et sécurité:
+-----------------+-------+-------+-------+-------+-------+ ! EFFECTIF ! ! ! ! ! ! ! % EN LIGNE ! sco1 ! sco2 ! sco3 ! sco4 ! sco5 ! ! % EN COLONNE ! ! ! ! ! ! +-----------------+-------+-------+-------+-------+-------+ ! ! 1 ! 2 ! 2 ! 0 ! 1 ! ! Pas imp. ! 16.67 ! 33.33 ! 33.33 ! .00 ! 16.67 ! ! ! .47 ! 2.90 ! 8.00 ! .00 !100.00 ! +-----------------+-------+-------+-------+-------+-------+ ! ! 4 ! 6 ! 5 ! 5 ! 0 ! ! Peu imp. ! 20.00 ! 30.00 ! 25.00 ! 25.00 ! .00 ! ! ! 1.88 ! 8.70 ! 20.00 ! 5.05 ! .00 ! +-----------------+-------+-------+-------+-------+-------+ ! ! 42 ! 17 ! 3 ! 27 ! 0 ! ! Moy. imp. ! 47.19 ! 19.10 ! 3.37 ! 30.34 ! .00 ! ! ! 19.72 ! 24.64 ! 12.00 ! 27.27 ! .00 ! +-----------------+-------+-------+-------+-------+-------+ ! ! 96 ! 27 ! 11 ! 41 ! 0 ! ! Imp. ! 54.86 ! 15.43 ! 6.29 ! 23.43 ! .00 ! ! ! 45.07 ! 39.13 ! 44.00 ! 41.41 ! .00 ! +-----------------+-------+-------+-------+-------+-------+ ! ! 70 ! 17 ! 4 ! 25 ! 0 ! ! Très imp. ! 60.34 ! 14.66 ! 3.45 ! 21.55 ! .00 ! ! ! 32.86 ! 24.64 ! 16.00 ! 25.25 ! .00 ! +-----------------+-------+-------+-------+-------+-------+ CHI2 = 105.78 20 DEGRES DE LIBERTE 17 EFFECTIFS THEORIQUES INFERIEURS A 5 PROBA ( CHI2 > 105.78 ) = .000 V.TEST = 7.33
Les deux résultats ont un rapport direct entre eux, il apparaît sur la
ligne le nom de la variable en ligne dans le tableau (sécurité), puis
le nom de la modalité retenue comme significativement liée à la
troisième année de scolarité, il s'agit de la modalité 2 (peu
important), le premier nombre marqué est 25.00 ce qui correspond au
pourcentage en ligne, cela veut dire 25% des gens qui ont dit que
la sécurité étaient peu importante sont en troisième année. Le
deuxième nombre correspond au pourcentage colonne, cela veut dire que
20% des gens de troisième année ont dit que la sécurité c'était peu
important. Le troisième nombre indique quel est sur l'ensemble de la
population le nombre de répondants qui ont choisi la modalité 2 (peu
important) pour la sécurité, il y en a 20. Il y a ensuite la valeur
du test fondé sur la loi hyper-géométrique celle ci vaut 2.59, puis
enfin une probabilité associée. Cette probabilité se lit comme dans
tous les tests... L'exemple que j'ai pris n'est qu'une ligne parmi
bien d'autres. Si on calcule le résidu standardisé de la cellule
correspondant à la troisième année et la modalité 2 (peu important)
dans le tableau croisé entre scolarité et sécurité on trouve 3.4 et
c'est le plus fort résidu du tableau cela correspond à une valeur
significative pour un test fondé sur le .
C'est en utilisant cette technique sur les variables illustratives de l'AFCM, que j'ai essayé de détecter les variables associées aux mots qui pouvaient discriminer le mieux les groupes définis par les modalités des variables illustratives. Le but de cet exposé n'est surtout pas de rentrer dans les détails de cette analyse par contre il m'a paru intéressant de s'attarder sur une de ces analyses en raison de l'étrangeté des résultats. Voilà ce qu'a donné la description de la variable sexe par les 211 variables mots, je n'ai retenu que les modalités pour lesquelles la probabilité est inférieure à 0,010. J'ai ajouté dans le tableau le numéro de la variable et le numéro de la modalité, les modalités sont présentées dans l'ordre décroissant de significativité du test. D'abord il y a les modalités les plus caractéristiques des garçons puis les modalités les plus caractéristiques des filles.
Garçons 028 solidarité 3 Moy. imp. 37.50 36.84 56 4.70 .000 195 Promesse 3 Moy. imp. 26.04 43.86 96 3.54 .000 019 affection 4 Imp. 21.88 61.40 160 3.49 .000 102 générosité 3 Moy. imp. 30.00 31.58 60 3.39 .000 003 Fidélité 4 Imp. 23.39 50.88 124 3.35 .000 124 profession 3 Moy. imp. 29.82 29.82 57 3.24 .001 093 joie 4 Imp. 23.28 47.37 116 3.14 .001 064 coopération 3 Moy. imp. 24.24 42.11 99 3.07 .001 141 Propriété 5 Très imp. 34.29 21.05 35 3.04 .001 205 Sainteté 3 Moy. imp. 29.09 28.07 55 3.02 .001 027 désintéressement 2 Peu imp. 24.72 38.60 89 2.98 .001 097 féminité 1 Pas imp. 42.11 14.04 19 2.88 .002 173 Masculinité 4 Imp. 22.73 43.86 110 2.83 .002 038 pluralisme 4 Imp. 24.42 36.84 86 2.82 .002 021 fraternité 3 Moy. imp. 24.42 36.84 86 2.82 .002 050 amour 3 Moy. imp. 50.00 10.53 12 2.78 .003 119 ascèse 4 Imp. 50.00 10.53 12 2.78 .003 023 tout-puissance 3 Moy. imp. 26.15 29.82 65 2.72 .003 168 Intuition 5 Très imp. 25.35 31.58 71 2.70 .004 107 simplicité 3 Moy. imp. 24.68 33.33 77 2.68 .004 119 ascèse 3 Moy. imp. 22.92 38.60 96 2.61 .005 062 rénovation 4 Imp. 25.37 29.82 67 2.60 .005 082 douceur 3 Moy. imp. 26.79 26.32 56 2.59 .005 171 Ruse 4 Imp. 24.05 33.33 79 2.57 .005 194 Compétence 4 Imp. 18.69 64.91 198 2.52 .006 056 santé 3 Moy. imp. 50.00 8.77 10 2.48 .007 143 Amabilité 3 Moy. imp. 22.58 36.84 93 2.45 .007 108 vérité 4 Imp. 21.19 43.86 118 2.45 .007 029 acceptation 3 Moy. imp. 21.70 40.35 106 2.42 .008 088 honnêté 4 Imp. 21.50 40.35 107 2.37 .009
Filles 003 Fidélité 5 Très imp. 92.83 66.57 251 4.83 .000 019 affection 5 Très imp. 93.88 52.57 196 4.39 .000 143 Amabilité 5 Très imp. 96.30 29.71 108 3.78 .000 092 partage 5 Très imp. 95.76 32.29 118 3.77 .000 093 joie 5 Très imp. 91.09 67.14 258 3.68 .000 183 Sincérité 5 Très imp. 91.56 62.00 237 3.65 .000 108 vérité 5 Très imp. 90.74 70.00 270 3.63 .000 075 fécondité 5 Très imp. 93.96 40.00 149 3.54 .000 088 honnêté 5 Très imp. 90.14 73.14 284 3.39 .000 063 spontanéïté 5 Très imp. 95.37 29.43 108 3.37 .000 190 Assurance 5 Très imp. 98.41 17.71 63 3.35 .000 028 solidarité 5 Très imp. 92.43 48.86 185 3.34 .000 023 tout-puissance 1 Pas imp. 90.80 64.86 250 3.33 .000 103 affectivité 5 Très imp. 91.92 52.00 198 3.25 .001 107 simplicité 5 Très imp. 93.94 35.43 132 3.21 .001 086 sympathie 5 Très imp. 92.44 45.43 172 3.14 .001 184 Protection 5 Très imp. 95.05 27.43 101 3.08 .001 136 Autonomie 5 Très imp. 91.71 47.43 181 2.88 .002 126 tendresse 5 Très imp. 90.83 56.57 218 2.88 .002 124 profession 5 Très imp. 91.91 45.43 173 2.87 .002 118 famille 5 Très imp. 89.67 69.43 271 2.80 .003 069 complicité 5 Très imp. 90.74 56.00 216 2.80 .003 102 générosité 5 Très imp. 92.47 38.57 146 2.76 .003 171 Ruse 1 Pas imp. 95.18 22.57 83 2.73 .003 035 dialogue 5 Très imp. 89.84 65.71 256 2.73 .003 192 Pardon 5 Très imp. 93.69 29.71 111 2.73 .003 115 serviabilité 5 Très imp. 95.12 22.29 82 2.69 .004 065 égalité 5 Très imp. 90.04 62.00 241 2.67 .004 012 révolution 2 Peu imp. 93.22 31.43 118 2.65 .004 039 dynamisme 5 Très imp. 92.59 35.71 135 2.65 .004 064 coopération 5 Très imp. 95.06 22.00 81 2.65 .004 142 Mariage 5 Très imp. 93.58 29.14 109 2.64 .004 044 méthode 2 Peu imp. 96.61 16.29 59 2.59 .005 153 Rectitude 0 Manquant 97.87 13.14 47 2.57 .005 160 Travail 5 Très imp. 91.95 39.14 149 2.55 .005 131 harmonie 5 Très imp. 91.95 39.14 149 2.55 .005 168 Intuition 3 Moy. imp. 92.42 34.86 132 2.53 .006 082 douceur 5 Très imp. 91.41 42.57 163 2.48 .007 074 surêté 5 Très imp. 95.45 18.00 66 2.42 .008
La constatation évidente c'est que sur 39 modalités retenues pour les filles il y a 33 fois la modalité <<très important>> (5) et pas une seule fois la modalité <<important>> (4), la modalité <<moyennement important>> (3) n'apparaîssant qu'une fois. Par contre chez les garçons sur 30 modalités retenues, il y a 15 fois la modalité <<moyennement important>> (3) et 11 fois la modalité <<important>> (4). La modalité <<pas important>> (1) n'est pratiquement pas présente chez les garçons, le seul mot pour lequel elle apparaît est féminité. Le fait que les garçons soient plutôt du côté des modalités 3 et 4 va dans le même sens que ce que suggérait l'AFCM. Cela pose un problème intéressant, l'AFCM comme la description de modalités présentée plus haut donne plus une information sur le type de notation que sur les mots caractéristiques des garçons ou des filles. C'est un problème assez similaire de celui de l'ACP présentée dans le premier exposé, la façon de contourner ce problème dans l'ACP avait été de recentrer les notes. C'est là que j'ai pensé qu'il pouvait y avoir une situation ressemblant au paradoxe de Simpson, j'ai donc pensé à croiser deux variables, le sexe et la façon de noter. Mais pour cela il a fallu réorganiser le fichier et considérer que l'on avait un fichier de 407*211=85877lignes chaque ligne correspondant à un croisement répondant par mot et une seule variable réponse la note. En ayant fait cela j'ai calculé un simple tableau croisé qui est présenté ici:
Eff obs % Lig | Eff thé % Col | Garçons Filles Résidu stand. | Total | 1 | 2 | Ligne --------+---------------+---------------+------ 0 | 81 7,6 | 983 92,4 | 1064 | 149 0,7 | 915 1,3 | 1,2% | -5,6 | 2,2 | +---------------+---------------+ 1 | 908 12,8 | 6203 87,2 | 7111 | 996 7,5 | 6115 8,4 | 8,3% | -2,8 | 1,1 | +---------------+---------------+ 2 | 1306 14,7 | 7581 85,3 | 8887 | 1245 10,9 | 7642 10,3 | 10,3% | 1,7 | -0,7 | +---------------+---------------+ 3 | 3321 15,6 | 17994 84,4 | 21315 | 2985 27,6 | 18330 24,4 | 24,8% | 6,1 | -2,5 | +---------------+---------------+ 4 | 4205 15,6 | 22775 84,4 | 26980 | 3779 35,0 | 23201 30,8 | 31,4% | 6,9 | -2,8 | +---------------+---------------+ 5 | 2206 10,8 | 18314 89,2 | 20520 | 2873 18,3 | 17646 24,8 | 23,9% | -12,5 | 5,0 | +---------------+---------------+------ Total Colonne | 12027 14% 73850 86% | 85877 Khi2 de Pearson=329,00826 Degrés de liberté=5 Niveau de signification=0,00000
Ce tableau contient 5 informations par cellule, l'effectif observé,
l'effectif théorique, le pourcentage ligne, le pourcentage colonne et
enfin le résidu standardisé, c'est à partir de cette valeur qu'on
détermine les cellules contribuant le plus au .
Ce tableau
extrêmement simple se caractérise dès le premier coup d'oeil par un
résidu standardisé négatif très important -12,5 correspondant à la
modalité <<très important>> pour les garçons. Cette modalité
représente près de
pour l'ensemble de la population et
seulement
pour les garçons. En raison de la beaucoup plus
grande proportion de filles que de garçons les résidus dans la colonne
des garçons sont beaucoup plus grands que ceux de la colonne des
filles, mais les résidus sont vraiment dans le même ordre inversé,
c'est la modalité <<très important>> (5) qui est la plus sur
représentée chez les filles suivie de la modalité <<pas important>>
(1). Ce tableau met en évidence une liaison très forte entre la
variable sexe et la façon de noter les mots de ce
questionnaire et ce pour l'ensemble des 211 mots, ce qui rend la
lecture de la description des modalités douteuse, on est là dans une
situation similaire à celle du paradoxe de Simpson. Nous avons ici 3variables qui sont le sexe, la note et le mot
. La variable sexe a deux modalités, la variable note
a 6 modalités et la variable mot a 211 modalités.
Dès le premier tableau récapitulatif des données nous avons présenté
celles-ci exactement comme si nous croisions la variable mot
avec la variable note, je redonne ici un extrait de ce tableau:
+-----+-----+-----+-----+-----+-----+-----+----------------+ | Pas | Peu | Moy | Imp | Très| NR | Num | Intitulé | +-----+-----+-----+-----+-----+-----+-----+----------------+ | 3| 8| 57| 141| 198| 0| V001| Loyauté | | 10| 40| 178| 133| 42| 4| V002| Charité | | 0| 5| 26| 124| 251| 1| V003| Fidélité | | 1| 11| 82| 180| 131| 2| V004| persévérance | | 1| 1| 26| 87| 289| 3| V005| Liberté | | 19| 42| 142| 132| 68| 4| V006| charme | | 28| 55| 150| 101| 34| 39| V007| Décentration | | 3| 12| 76| 200| 112| 4| V008| Détermination | | 1| 3| 21| 106| 275| 1| V009| Franchise | | 100| 86| 141| 42| 14| 24| V010| piété | | 7| 15| 86| 162| 137| 0| V011| Loisir | | 68| 118| 131| 64| 22| 4| V012| révolution | | 1| 4| 31| 176| 195| 0| V013| volonté | | 0| 0| 27| 120| 259| 1| V014| sentiment | | 13| 33| 142| 130| 78| 11| V015| développement | | 28| 56| 149| 76| 25| 73| V016| mansuétude | | 164| 101| 113| 20| 3| 6| V017| célibat | | 142| 114| 100| 43| 7| 1| V018| patriotisme | +-----+-----+-----+-----+-----+-----+-----+----------------+
Quand on a fait une AFC simple sur ce tableau on a étudié la liaison entre les notes et les mots, le tableau de précédent nous a permis d'étudier la liaison entre la variable sexe et la variable note . La dernière liaison que l'on pourrait étudier est celle entre la variable mot et la variable sexe, mais cela n'a aucun sens. En effet, compte tenu du fait qu'il y a une modalité <<non réponse>>, tous les mots ont 407 réponses et pour chaque mot il y a 350 filles et 57 garçons, il n'y a donc, par construction, aucune liaison entre ces deux variables. Le but éventuel de l'AFCM et aussi de la description de modalités telle qu'elle a été faite est de mesurer une liaison entre ces trois variables. La similitude avec le paradoxe de Simpson vient du fait que la liaison entre le sexe et la note agit de manière parasite pour lire la liaison entre sexe, mot et note. Plusieurs méthodes ont été envisagées pour tenter de résoudre ce <<paradoxe>>. Une des idées possibles est d'utiliser l'AFC simple mais en regroupant deux tableaux constitués un en considérant uniquement les filles et un uniquement en considérant les garçons. Deux façons de regrouper, soit en collant les tableaux côte à côte en faisant un tableau de 211 lignes et 12 colonnes soit en les collant à la file, en faisant un tableau de 422 lignes et 6colonnes. C'est la représentation de cette AFC sur les deux premiers axes qui est donnée, de manière incomplète, toujours pour des raisons de place. L'idée de cette méthode consiste à repérer les différences de représentations des mots pour les filles et pour les garçons.
AXE 1 * AXE 2 F108F116G116------------------------------------------------F23 F203 F9 G5 ! F205F31 F3 G50 ! G22 F22 F14 F93 ! F159G73 G139G36 ! F73 G31 F65 G56 ! PAS1G159 F71 ! G181 ! F152F125F36 ! F157 G205 F126F69 G9 ! F27 ! TRE5F76 G14 ! G23 F109 .4 G88 F103G118 ! G187 F17 F19 F122G125 F75 ! F142 F18 F55 F96 F28 F138F13 F124 ! F187G78 F181 ! F136G76 F111 ! G157 G17 ! G170G108G1 G71 ! ! F86 G35 G65 F77 ! G211 G18 ! ! G93 G83 G152 ! G142F211F51 F30 G27 G109 ! ! G13 F160F107G174 G97 F105 F119 ! F149F32 F21 F166F195 ! G98 F78 F148 ! ! G183F39 G80 F150 ! F173F98 G12 G96 ! ! F129F33 F11 F97 F59 G53 G75 G134G146G55 G30 F10 ! .0 +--G89 G138F163G168G166G100--------F161--------F171----G105-----! ! F92 G3 G95 F112G177F42 F53 F208 F146PEU2G148 ! ! F81 F63 G66 G61 F115G208F114G104F47 F134 G10 ! ! G81 G149F68 G21 F61 F164G141G161G51 F12 G144 ! ! G112F46 G160G131G6 G114G171G24 G47 F144 ! ! G8 G200F154G40 F25 G197F186F60 F91 F48 ! ! G19 G32 G70 G185F74 G195F24 F38 F113 G85 F85 G119 ! ! G33 G162F106F40 F135F168G37 G186G87 F79 F62 ! ! F56 G39 G102G137G180F44 G91 F141G204G153F132 ! ! F50 F194F189G107G135G44 MOY3F117F204G113F128G48 ! ! G58 G72 G29 F155G167G156G62 G110F153 ! -.4 + G158F127F210G155G120F7 F178G79 G128 ! ! F88 G198G92 G175G34 G191G101G49 F201 ! ! F2 G41 F34 F49 G117 ! ! G194G189G127G74 G206G121F16 ! ! G64 ! G2 G7 NR6 ! ! G143 ! G201 ! ! G190 G132 ! -------+---------------+---------------+------G16 -----+------- -.5 .0 .5 1.0
Compte tenu du nombre de points un tel graphique est difficile à lire
dans sa globalité. Les variables mots sont représentées avec leur
numéro précédé d'un F pour les filles et d'un G pour les garçons. On
peut toutefois repérer certains petits détails, en bas à gauche il y
a, par exemple F56, F50 et F88 qui correspondent aux mots santé, amour
et honnêteté pour les filles alors que G56, G50 et G88 correspondant
aux mêmes mots pour les garçons sont en haut en gauche. Attention cela
ne veut pas dire, malgré les apparences que ces mots soient plus loin
de la modalité 5 pour les filles. F75 et F142 correspondant à la
fécondité et au mariage pour les filles sont bien au milieu du <<fer à
cheval>> alors que G75 et G142 sont un peu plus noyés dans la masse.
Cela correspond au fait que ces mots ont une plus grande variance pour
les filles.
Pour essayer d'analyser ce paradoxe j'ai essayé d'utiliser le modèle log-linéaire, mais pour ce fichier de données le nombre de cellules est absolument gigantesque 211*6*2=2532. J'ai donc mis la même table que celle utilisée pour l'AFC précédente dans un modèle. Le principe du modèle consiste à dire que le nombre de personnes d'un sexe ayant attribué une note à un mot dépend de plusieurs types d'effets. De manière évidente cela dépend du nombre de personnes de chacun des deux sexes, cela dépend du nombre de réponses pour le mot, mais ici ce nombre est le même pour tous les mots (407) et cela dépend du nombre de fois où la note a été donnée sur l'ensemble des mots. Ces trois choses représentent ce que l'on appelle les effets simples. Le principe est une généralisation de la table de contingence (tableau croisé simple) ici à un tableau à 3 entrées comme si on empilait deux tableaux l'un sur l'autre. On peut ensuite envisager les effets d'interaction de variables deux à deux, puis d'interaction entre les trois variables. Le principe est similaire à une analyse de variance à 3 facteurs sauf que la variable à expliquer (variable dépendante pour certains logiciels) est une variable de comptage qui ne suit pas une loi normale mais plutôt une loi de Poisson, ici c'est le nombre de personnes dans une cellule du tableaux à trois entrées défini par le sexe, le mot et la note. Dans la première AFC simple nous avons étudié l'interaction entre la variable mot et la variable note, dans le tableau de précédent nous avons étudié l'interaction entre la variable sexe et la variable note, dans le modèle log-linéaire nous allons mettre ces deux interactions ensemble. L'interaction entre la variable sexe et la variable mot est sans aucun intérêt d'un point de vue qualité d'ajustement du modèle, mais par contre cela est utile pour l'estimation des paramètres et cela est intéressant. Si l'on met dans le modèle l'interaction entre les trois variables on obtient un modèle dit saturé. Pour traiter les données il a été plus simple de créer un fichier de 2532 lignes et 4 variables, la première variable étant le mot, la deuxième le sexe, la troisième la note et enfin la quatrième étant l'effectif correspondant à la cellule, cette variable a d'ailleurs était appelée eff . Voici à titre exemple un extrait de ce fichier correspondant au mot numéro 36.
36 1 1 0 36 1 2 2 36 1 3 6 36 1 4 13 36 1 5 36 36 1 6 0 36 2 1 3 36 2 2 3 36 2 3 29 36 2 4 126 36 2 5 189 36 2 6 0
La note 6 correspond ici à la <<non réponse>>. Cela indique par exemple qu'il y a 13 garçons qui ont donné la note 4 (important) au mot 36 ou qu'il y a 29 filles qui ont donné la note 3(moyennement important) au même mot. La syntaxe pour faire du modèle log-linéaire avec SPSS peut être la suivante, c'est celle que j'ai retenue. Cette syntaxe ne peut hélas pas être obtenue par des menus et la commande obtenue par les menus ne m'a pas convaincu, pour le moment et je reste donc fidèle à celle là.
weight by eff loglinear note (1,6) mot (1,211) sexe (1,2) /design= note mot sexe note by mot sexe by note sexe by mot /print=freq estim
Attention il s'agit d'un calcul excessivement long à effectuer, je ne l'ai d'ailleurs pas fait avec SPSS pour le fichier en entier, mais avec GLIM, voici la syntaxe de ce logiciel.
$error poisson$ $yvariate eff$ $fit note+mot+sexe+sexe.note+mot.note+sexe.mot$
Je l'ai fait aussi avec SAS voici la syntaxe de ce logiciel.
proc genmod; class mot sexe note; model eff = mot sexe note note*sexe mot*note mot*sexe /dist =poi link=log ; run;
À partir de comparaisons poussées SAS et GLIM donnent les mêmes
résultats. Sur bien des exemples SPSS et SAS donnent les mêmes
résultats. Sur des sous ensembles de ce fichiers SPSS et GLIM donnent
bien les mêmes résultats sur les modèles log-linéaires.
Si j'ai choisi GLIM c'est parce que c'est le logiciel qui produit les
résultats les plus compacts ce qui compte tenu de la taille du fichier
était très important, il a fallu plusieurs heures à un gros
calculateur pour ajuster ce modèle. Il est évident qu'il faut être
très prudent pour lancer ce genre de calcul sur un micro ordinateur
surtout avec SPSS.
Dans le modèle avec toutes les interactions d'ordre 2 mais sans celle d'ordre 3 j'ai regardé où il y avait des résidus importants, c'est à dire inférieurs à -2 ou supérieurs à 2 je n'ai gardé que les cellules concernant les garçons et voici un tableau récapitulatif des résidus importants.
+-----------------+-------+-------+-------+-------+-------+------+ | Mots | PAS 1 | PEU 2 | MOY 3 | IMP 4 | TRES 5| NR 6 | +-----------------+-------+-------+-------+-------+-------+------+ |Propriété | | | | | 4.67 | | |Intuition | | |-2.26 | | 4.16 | | |Ruse | | | | 2.14 | 3.38 | | |patriotisme | | | | | 2.77 | | |raison | | | | | 2.64 | | |révolution | |-2.16 | | | 2.63 | | |chance | | | | | 2.45 | | |intelligence | | | | | 2.32 | | |Méditation | | | | | 2.29 | | |mysticisme | | | | | 2.18 | | |honneur | | | | | 2.17 | | |objectivité | | | | | 2.15 | | |courage | | | | | 2.14 | | |Loisir | | | | | 2.04 | | |plaisir | | | |-2.23 | 2.03 | | |partage | | 2.16 | | |-2.04 | | |Assurance | | | | |-2.07 | 3.44 | |affection | 2.30 | | | |-2.09 | | |Amabilité | | | | |-2.11 | | |Fidélité | | | | |-2.11 | 3.07 | |égalité | | 2.01 | | | | | |tout-puissance | | | 2.01 | | | | |sympathie | | 2.10 | | | | 2.94 | |solidarité | | | 3.76 | | | | |santé | | | 2.22 | | | | |rénovation | | | | 2.27 | | | |professionnalisme| 2.05 | | | | | | |profession | | | 2.42 | | | | |pluralisme | | | | 2.12 | | | |méthode | |-2.21 | | | | | |mansuétude | | | | | | 3.44 | |honnêté | 2.17 | | | | | | +-----------------+-------+-------+-------+-------+-------+------+
+-----------------+-------+-------+-------+-------+-------+------+ | Mots | PAS 1 | PEU 2 | MOY 3 | IMP 4 | TRES 5| NR 6 | +-----------------+-------+-------+-------+-------+-------+------+ |générosité | | | 2.64 | | | | |féminité | 3.51 | | | | | | |désintéressement | | 2.35 | | | | | |discrétion | 2.28 | | | | | | |coopération | | | 2.26 | | | | |compétitivité | | | | | | 3.40 | |cohérence | | | | | | 2.22 | |beauté | | | | | | 3.46 | |autorité | | | | | | 3.49 | |ascèse | | | | 2.86 | | | |amour | | | 2.42 | | | | |Travail | 2.01 | | | | | | |Tolérance | 2.26 | | | | | | |Sincérité | | 2.03 | | | | | |Sainteté | | | 2.39 | | | | |Promesse | | | 2.47 | | | | |Modestie | | | | | | 4.79 | |Masculinité | | | | 2.04 | | | |Indulgence | | 2.43 | | | | | |Franchise | 2.18 | | | | | | |Diplomatie | | 2.10 | | | | | |Compromis | 2.63 | | | | | | +-----------------+-------+-------+-------+-------+-------+------+
Il est facile de voir où se trouvent les mots avec les modalités correspondantes. Là où se trouve un résidu positif c'est que le nombre de garçons ayant choisi cette modalité est important par rapport aux nombre de filles mais surtout en tenant compte de la liaison existant entre le sexe et la façon de noter. On peut à partir de là, comparer avec ce tableau avec celui de la description des modalités obtenu par DEMOD. J'ai repris les 30 modalités les plus représentatives des garçons obtenues par DEMOD en accolant au tableau la valeur du résidu obtenu dans le modèle log-linéaire, et en mettant abs si le résidu n'est pas assez important.
028 solidarité 3 Moy. imp. 37.50 36.84 56 4.70 3.76 195 Promesse 3 Moy. imp. 26.04 43.86 96 3.54 2.47 019 affection 4 Imp. 21.88 61.40 160 3.49 abs 102 générosité 3 Moy. imp. 30.00 31.58 60 3.39 2.64 003 Fidélité 4 Imp. 23.39 50.88 124 3.35 abs 124 profession 3 Moy. imp. 29.82 29.82 57 3.24 2.42 093 joie 4 Imp. 23.28 47.37 116 3.14 abs 064 coopération 3 Moy. imp. 24.24 42.11 99 3.07 2.26 141 Propriété 5 Très imp. 34.29 21.05 35 3.04 4.67 205 Sainteté 3 Moy. imp. 29.09 28.07 55 3.02 2.39 027 désintéressement 2 Peu imp. 24.72 38.60 89 2.98 2.35 097 féminité 1 Pas imp. 42.11 14.04 19 2.88 3.51 173 Masculinité 4 Imp. 22.73 43.86 110 2.83 2.04 038 pluralisme 4 Imp. 24.42 36.84 86 2.82 2.12 021 fraternité 3 Moy. imp. 24.42 36.84 86 2.82 abs 050 amour 3 Moy. imp. 50.00 10.53 12 2.78 2.42 119 ascèse 4 Imp. 50.00 10.53 12 2.78 2.86 023 tout-puissance 3 Moy. imp. 26.15 29.82 65 2.72 2.01 168 Intuition 5 Très imp. 25.35 31.58 71 2.70 4.16 107 simplicité 3 Moy. imp. 24.68 33.33 77 2.68 abs 119 ascèse 3 Moy. imp. 22.92 38.60 96 2.61 abs 062 rénovation 4 Imp. 25.37 29.82 67 2.60 2.27 082 douceur 3 Moy. imp. 26.79 26.32 56 2.59 abs 171 Ruse 4 Imp. 24.05 33.33 79 2.57 2.14 194 Compétence 4 Imp. 18.69 64.91 198 2.52 abs 056 santé 3 Moy. imp. 50.00 8.77 10 2.48 2.22 143 Amabilité 3 Moy. imp. 22.58 36.84 93 2.45 abs 108 vérité 4 Imp. 21.19 43.86 118 2.45 abs 029 acceptation 3 Moy. imp. 21.70 40.35 106 2.42 abs 088 honnêté 4 Imp. 21.50 40.35 107 2.37 abs
L'analyse ce tableau permet de voir qu'il y a des différences
importantes, 12 modalités qui avaient été considérées par DEMOD sont
absentes dans le modèle log-linéaire réciproquement des résidus
importants pour le modèle log-linéaire correspondent à des modalités
qui sont absentes, la hiérarchie des résidus n'est pas vraiment la
même que celle de DEMOD.
Pour mieux présenter les sorties de SPSS sur le modèle log-linéaire, je me suis limité à l'étude d'un seul mot. en partant du fichier de 2532 lignes j'ai recodé la variable mot en deux modalités la valeur 36 est devenue la valeur 1 et toutes les autres valeurs sont devenues 2 cela fournit un fichier de seulement 24 lignes. Cela donne le fichier suivant:
1 1 1 0 1 1 2 2 1 1 3 6 1 1 4 13 1 1 5 36 1 1 6 0 1 2 1 3 1 2 2 3 1 2 3 29 1 2 4 126 1 2 5 189 1 2 6 0 2 1 1 908 2 1 2 1304 2 1 3 3315 2 1 4 4192 2 1 5 2170 2 1 6 81 2 2 1 6200 2 2 2 7578 2 2 3 17965 2 2 4 22469 2 2 5 18125 2 2 6 983
La syntaxe de SPSS devient, en changeant le 211 par 2:
weight by eff loglinear note (1,6) mot (1,2) sexe (1,2) /design= note mot sexe , note by mot, sexe by note /print=freq estim
Et obtient grosso modo les résultats suivant que j'ai un petit peu allégés...
* * * * * * * * * * L O G L I N E A R A N A L Y S I S * * * * DATA Information 24 unweighted cases accepted. 0 cases rejected because of out-of-range factor values. 0 cases rejected because of missing data. 85697 weighted cases will be used in the analysis. FACTOR Information Factor Level Label NOTE 6 MOT 2 SEXE 2 Correspondence Between Effects and Columns of Design/Model 1 Starting Ending Column Column Effect Name 1 5 NOTE 6 6 MOT 7 7 SEXE 8 12 NOTE BY MOT 13 17 SEXE BY NOTE 18 18 MOT BY SEXE
Factor Code OBS. count EXP. count NOTE Pas important MOT plaisir SEXE Garçon 0 .42 SEXE Fille 3 2.58 MOT autres SEXE Garçon 908 907.58 SEXE Fille 6200 6200.42 NOTE Peu important MOT plaisir SEXE Garçon 2 .80 SEXE Fille 3 4.20 MOT autres SEXE Garçon 1304 1305.20 SEXE Fille 7578 7576.80 NOTE Moyennement important MOT plaisir SEXE Garçon 6 5.90 SEXE Fille 29 29.10 MOT autres SEXE Garçon 3315 3315.10 SEXE Fille 17965 17964.90 NOTE Important MOT plaisir SEXE Garçon 13 23.60 SEXE Fille 126 115.40 MOT autres SEXE Garçon 4192 4181.40 SEXE Fille 22469 22479.60 NOTE Très important MOT plaisir SEXE Garçon 36 26.29 SEXE Fille 189 198.71 MOT autres SEXE Garçon 2170 2179.71 SEXE Fille 18125 18115.29 NOTE Non réponse MOT plaisir SEXE Garçon 0 .00 SEXE Fille 0 .00 MOT autres SEXE Garçon 81 81.00 SEXE Fille 983 983.00
NOTE Pas important MOT plaisir SEXE Garçon -.4158 -.6449 -.6976 SEXE Fille .4158 .2587 .6976 MOT autres SEXE Garçon .4158 .0138 .6976 SEXE Fille -.4158 -.0053 -.6976 NOTE Peu important MOT plaisir SEXE Garçon 1.2039 1.3492 1.4822 SEXE Fille -1.2039 -.5872 -1.4822 MOT autres SEXE Garçon -1.2039 -.0333 -1.4822 SEXE Fille 1.2039 .0138 1.4822 NOTE Moyennement important MOT plaisir SEXE Garçon .0971 .0400 .0463 SEXE Fille -.0971 -.0180 -.0463 MOT autres SEXE Garçon -.0971 -.0017 -.0463 SEXE Fille .0971 .0007 .0000 NOTE Important MOT plaisir SEXE Garçon -10.5988 -2.1818 -3.1076 SEXE Fille 10.5988 .9866 3.1076 MOT autres SEXE Garçon 10.5988 .1639 3.1076 SEXE Fille -10.5988 -.0707 -3.1076 NOTE Très important MOT plaisir SEXE Garçon 9.7137 1.8946 2.7976 SEXE Fille -9.7137 -.6891 -2.7976 MOT autres SEXE Garçon -9.7137 -.2081 -2.7976 SEXE Fille 9.7137 .0722 2.7976 NOTE Non réponse MOT plaisir SEXE Garçon .0000 -.0002 -.0002 SEXE Fille .0000 -.0007 -.0007 MOT autres SEXE Garçon .0000 .0000 .0000 SEXE Fille .0000 .0000 .0000 Goodness-of-Fit test statistics Likelihood Ratio Chi Square = 12.97674 DF = 6 P = .043 Pearson Chi Square = 12.52975 DF = 6 P = .051
SPSS commence par présenter le modèle qui a été utilisé puis donne les valeurs observées et les valeurs ajustées, parfois appelées valeurs théoriques ou valeurs attendues, de toutes les cases du tableau ensuite il fournit les résidus du modèle et enfin donne les statistiques d'ajustement et notamment le . Les résidus importants sont pour les modalités 4 négatif et 5 positif pour les garçons, cela est cohérent avec le modèle global quand on considère les 211 mots. À titre de comparaison le tableau croisé entre la variable sexe et la variable V36 ne donne pas de résidu important et le n'est pas significatif. Le tableau du modèle log-linéaire donne trois types de résidus les résidus bruts, les résidus standardisés et les résidus ajustés, cela renforce la ressemblance entre le modèle log-linéaire et l'analyse d'un tableau croisé, toutefois dans ce tableau je n'ai mis que l'effectif et le résidu standardisé.
SEXE Eff | Résidu |Garçons Filles | Row | 1 | 2 | Total V36 --------+--------+--------+ 1 | 0 | 3 | 3 Pas imp. | -.6 | .3 | .7% +--------+--------+ 2 | 2 | 3 | 5 Peu imp. | 1.6 | -.6 | 1.2% +--------+--------+ 3 | 6 | 29 | 35 Moy. imp. | .5 | -.2 | 8.6% +--------+--------+ 4 | 13 | 126 | 139 Imp. | -1.5 | .6 | 34.2% +--------+--------+ 5 | 36 | 189 | 225 Très imp. | .8 | -.3 | 55.3% +--------+--------+ Column 57 350 407 Total 14.0% 86.0% 100.0% Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 6.82190 4 .14560
On a donc ici une situation correspondant à un paradoxe qui montre
qu'il faut se méfier des croisements de variables deux à deux. Mais
bien sûr à partir de cet exemple on peut se douter que par exemple la
variable filière pourrait avoir un rôle important dans le
modèle alors qu'elle n'y est pas. Mais le fait de voir la petite
contradiction entre le croisement de deux variables et le croisement
de trois variables permet de se poser des questions ce qui est souvent
encore plus important que de donner des réponses. L'intérêt de cette
dernière approche est de montrer que le traitement des données en
qualitatif permet d'apprécier des différences entre modalités très
voisines, le mot plaisir (36) est particulièrement intéressant
de ce point de vue là.
Il peut être pertinent d'effectuer un retour en arrière pour voir le comportement d'une telle variable dans diverses analyses précédentes. Premièrement c'est un mot avec une très forte moyenne, plus de pour la modalité 5, les modalités 4 et 5 représentant des réponses. Dans la première AFC simple il apparaît du côté de la modalité 5 mais légèrement décalé du groupe de tête vie (116), santé (56), amour (50) ce qui correspond au fait que le mot est classé 19 pour la moyenne. Dans l'ACP le mot est plutôt gauche sur le graphique légèrement en bas. Une lecture naïve des variables illustratives de l'ACP mettrait ce mot du côté des filles, du côté du Mirail etc. Le dernier traitement simple effectué pour le premier exposé nous montrait quelque chose de contraire, le mot est mieux classé chez les garçons que chez les filles, et il est mieux classé à l'IUT qu'au Mirail. Dans ce petit traitement ce qui apparaissait nettement c'est que le mot était classé deuxième juste après la vie par les garçons de l'IUT alors qu'il n'arrivait qu'à la place 25chez les filles du Mirail. Dans l'AFCM le plus simple est de refaire un graphique pour visualiser où se trouvent les 5 modalités du mot numéro 36, elles ont été notées 0361, 0362, 0363, 0364, 0365.
AXE 1 * AXE 2 AXE 2 ----------------------IUTgCélC--------------------------------- ! ! ! ! ! ! ! ! ! ! 4IMP! ! ! ! ! ! ! ! .2 + ! IUT ! ! ! ! ! garçons ! res3 ! ! ! IUTf ! ! ! 4ème ! ! parents ! 0365 ! ! ! ! ! fam7 ! 7_ ! 0364 ! Couple ! 3ème RFam ! ! .0 -0362------------3MOY-----------------------+--1ère-------------! ! Céli 6NR!fillesfam8 5IMP ! ! ! ! Mirail ! seul ! ! Âge MirF ! MirG ! ! ! ! ! ! ! Indp ! ! 2ème ! ! ! ! ! -.2 + ! ! ! 2PEU ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! -.4 + ! ! 0363 Doct 0361 -------+-----------+-----------+---1PAS----+--mari-----+------- -.36 -.24 -.12 .00 .12 AXE 1
La représentation du centre des modalités 5 est trompeuse car elle
se trouve loin à l'extérieur du graphique, ainsi la modalité 5 du
mot 36 est beaucoup plus proche du centre mais c'est sur le deuxième
axe qu'apparaît un léger décalage. Le centre des modalités 4 se
trouve en haut de l'axe alors que la modalité 4 du mot 36 se
trouve plus bas que la modalité 5 du même mot, ce qui est en général
le contraire; ce deuxième axe oppose d'ailleurs le Mirail et l'IUT et
aussi les garçons et les filles. Dans l'AFC simple avec représentation
différenciée pour les garçons et les filles G36 apparaît dans le
groupe de tête alors que F36 est légèrement plus bas.
Traitements quantitatifs ou traitements qualitatifs, traitements visant à regrouper ou à discriminer, traitements simples ou complexes, traitements descriptifs ou traitement inférentiels, j'ai essayé au long du traitement de ce fichier de données de choisir un certains nombres d'approches différentes. J'ai effectué un grand nombre d'autres traitements statistiques que je n'ai pas jugés intéressants et que je je n'ai pas intégrés dans ces exposés, classifications sur les sujets ou sur les variables notamment. Il y a d'autres traitements que j'ai utilisé comme aides ou compléments et que je n'ai pas intégrés au document faute d'espace, de temps et peut être aussi à cause de la difficulté. Par ailleurs il me paraît utile de rappeler que les traitements auraient pu être différents si des éliminations de variables avaient été effectuées suite aux premiers traitements, une telle décision ne peut venir uniquement du traitement statistique mais doit être appuyée par des considérations propres au domaine d'étude. Ces exposés n'avaient pas d'autre prétention que de présenter certaines méthodes et surtout, comme l'indiquait le titre, comment il est possible de les enchaîner ou de les articuler. Comme pour les exposés précédents ce document représente un support écrit qui sert essentiellement pour les auditeurs de l'exposé, ce document doit se voir comme un complément ou une aide pour suivre et non comme quelque chose d'autonome. De plus il pourrait y avoir des interprétations plus poussées des divers résultats statistiques présentés mais il s'agit là du travail des praticiens.