Pour visualiser les liens entre deux variables on peut faire un
diagramme de dispersion. Le diagramme de dispersion est une
représentation très simple de deux variables. Les axes dans la
représentation sont habituellement nommés, axe des x pour l'axe
horizontal et axe des y pour l'axe vertical. Implicitement lorsqu'on
représente deux variables de cette manière, on a déjà l'idée que la
variable que l'on met sur l'axe des y dépend de celle que l'on met
sur l'axe des x. On voit par là que la représentation graphique est
en quelque sorte une pré modélisation, même si on ignore les
terminologies de variables explicatives et de variables à expliquer.
Je rappelle que dans la terminologie du collège, la position d'un
point sur l'axe des x s'appelle l'abscisse et la position sur l'axe
des y l'ordonnée. Ce mode de représentation est très semblable à
celui de la géographie qui repère les points par la longitude et la
latitude. Pour des raisons de place le diagramme est représenté sur la
page suivante.
Diagramme de dispersion de la fréquence au seuil contre l'âge
++----+----+----+----+----+----+----+----+----+----+----+----+----++ 178+ + | | | * | | | | | 176+ + | | | * * | | | | | 174+ + f | | r | * | e | | q | | u 172+ * * * * * + e | | n | | c | | e | | 170+ * * * * * + a | | u | * * * | | | s | | e 168+ ** + u | | i | * * | l | | | | 166+ + | | | * * ** | | | | | 164+ + ++----+----+----+----+----+----+----+----+----+----+----+----+----++ 5 15 25 35 45 55 65 âge
Chaque étoile sur ce graphique représente un des sportifs de l'échantillon, c'est une autre façon de représenter le tableau de données. Il s'agit de ce que l'on peut appeler une représentation cartésienne, pour chacune des étoiles l'abscisse donne l'âge et l'ordonnée donne la valeur de la fréquence seuil. À partir de ce graphique on peut constater une tendance à la baisse de la fréquence seuil au fur et à mesure que l'âge augmente. Ce diagramme de dispersion est aussi représenté sur la figure 2 en fin de document.
Le but de la régression linéaire est de trouver à partir de ce nuage de points, une droite qui le résumerait au mieux. Si on appelle x, l'âge et y la fréquence au seuil, on cherche une droite d'équation y=a x + b telle que celle ci passe le plus près possible des points du nuage. Le but de la régression est donc de trouver les paramètres a et b qui caractérisent la droite. Contrairement à ce qui est le cas traditionnel en mathématique, on appelle x et y les observations, et ce sont a et b qui désignent les inconnues. J'ai mentionné que Viète qui a introduit les lettres en mathématiques, avait employé les lettres a, b, c comme inconnues et que par la suite ce sont x, y et z qui se sont imposées, en statistique on désigne souvent les quantités inconnues par les premières lettres, mais souvent de l'alphabet grec, alpha ou beta.
Sur ces données le calcul de la régression linéaire simple donne
a=174,22 et b=-0,111, c'est à dire que la droite d'équation:
y=174,22 -0,111 x
est la droite la plus proche des points du diagramme de dispersion. Si on accepte cette droite comme représentant les données on peut dire que la fréquence seuil vaut 174 à la naissance et baisse d'environ 1 point tous les 10 ans. Les données sont presque toujours avec des nombres entiers.