Next: Lecture des résultats de Up: Éléments primaires de la Previous: Mise en liaison des

Régression linéaire, point de vue inférentiel

Il est dangereux avec les données observées de considérer la droite de régression comme un modèle valide, en effet beaucoup de point observés se trouvent assez loin de la droite de régression. L'approche inférentielle doit nous permettre de valider le modèle.

Dans le cadre de la modélisation probabiliste, on considère que les observations des valeurs sont le résultat d'un phénomène aléatoire. On dit, en terme probabiliste que l'observation est la valeur prise par une variable aléatoire, un objet mathématique difficile à définir rigoureusement dans le cadre d'un tel exposé, mais dont le but est de définir l'ensemble des possibilités pour les valeurs qui auraient pu être prises par l'observation. Si on admet, compte tenu de la boîte de dispersion, que c'est la loi normale qui décrit ces possibilités, cela revient à dire que nous avons schématiquement la relation suivante:

$y= a*x+b+\epsilon$

Où $\epsilon$ désigne, si l'on peut dire le hasard. On dit que $\epsilon$ représente une loi normale de moyenne nulle. Ce que cela change, essentiellement par rapport à la vision descriptive c'est que ce que l'on obtiendra ce n'est pas la valeur de a ou b mais une estimation de la valeur de a ou b. Concrètement on obtient une valeur pour a ou b mais aussi une mesure de l'incertitude qui existe dans cette estimation. Cette mesure de l'incertitude dans l'estimation des paramètres, c'est ainsi que l'on appelle a et b, s'appelle <<l'erreur standard>>. Classiquement on obtient aussi dans la régression un test de Fisher pour indiquer si le paramètre a est significativement différent de 0. Dans le calcul du test interviennent un certain nombre de concepts qui reviennent systématiquement dans tous les modèles.

La valeur prédite par la régression est la valeur théorique, ou la valeur attendue, ou la valeur ajustée, si le modèle est bon, dans le cas d'une régression linéaire simple c'est tout simplement la valeur sur la droite. C'est à dire dans l'exemple des données présentées plus haut pour un sportif âgé de 50 ans, c'est la fréquence seuil obtenue par le calcul:

fréquence théorique = 174,22 - 50* 0,111 = 168,67

Le résidu pour une observation c'est l'écart entre la valeur observée, et la valeur théorique.

résidu = valeur observée - valeur théorique

Pour le seul individu de 50 ans de l'échantillon la fréquence vaut 165 le résidu vaut 165 - 168,67 = -3,67

La somme des carrés des résidus s'appelle la somme des carrés résiduelle. C'est une mesure de l'adéquation entre le nuage et la droite, dans le cas de la régression linéaire simple, plus généralement cela mesure, globalement l'écart entre les valeurs prédites par le modèle et les observations.

Plus on met de paramètres dans un modèle et plus le modèle est complexe. Un modèle complexe a plus de chance de s'approcher des données, si on ne tient compte que de la mesure globale de l'écart entre les observations et les données, mentionnée plus haut on risque d'avantager le modèle le plus complexe. Si on ne dispose que de deux observations, et que l'on fasse une régression linéaire simple on est sur que la droite passera par les deux points est l'ajustement du modèle aux données sera parfait. Il existe un concept important en modélisation qui permet d'éviter ce genre de pratiques, c'est celui de degré de liberté. Le degré de liberté associé à la somme résiduelle des carrés est grosso modo égal aux nombres d'observations moins le nombre de paramètres dans le modèle.

degrés de liberté = nombre d'observations - nombre de paramètres

Dans la régression le nombre de paramètres du modèle est deux, a et b. On divise les sommes de carrés par les degrés de liberté associés, un critère simple pour dire si un modèle est meilleur qu'un autre est d'avoir le plus petit rapport entre la somme de carrés résiduelle et le nombre de degrés de liberté résiduels.

Next: Lecture des résultats de Up: Éléments primaires de la Previous: Mise en liaison des

Joseph Saint Pierre
1998-11-24