Il est dangereux avec les données observées de considérer la droite de régression comme un modèle valide, en effet beaucoup de point observés se trouvent assez loin de la droite de régression. L'approche inférentielle doit nous permettre de valider le modèle.
Dans le cadre de la modélisation probabiliste, on considère que les
observations des valeurs sont le résultat d'un phénomène aléatoire.
On dit, en terme probabiliste que l'observation est la valeur prise
par une variable aléatoire, un objet mathématique difficile à définir
rigoureusement dans le cadre d'un tel exposé, mais dont le but est de
définir l'ensemble des possibilités pour les valeurs qui auraient pu
être prises par l'observation. Si on admet, compte tenu de la boîte de
dispersion, que c'est la loi normale qui décrit ces possibilités, cela
revient à dire que nous avons schématiquement la relation suivante:
Où
désigne, si l'on peut dire le hasard. On dit que
représente une loi normale de moyenne nulle. Ce que cela
change, essentiellement par rapport à la vision descriptive c'est que
ce que l'on obtiendra ce n'est pas la valeur de a ou b mais une
estimation de la valeur de a ou b. Concrètement on obtient une
valeur pour a ou b mais aussi une mesure de l'incertitude qui
existe dans cette estimation. Cette mesure de l'incertitude dans
l'estimation des paramètres, c'est ainsi que l'on appelle a et b,
s'appelle <<l'erreur standard>>. Classiquement on obtient aussi dans
la régression un test de Fisher pour indiquer si le paramètre a est
significativement différent de 0. Dans le calcul du test
interviennent un certain nombre de concepts qui reviennent
systématiquement dans tous les modèles.
La valeur prédite par la régression est la valeur théorique, ou la
valeur attendue, ou la valeur ajustée, si le modèle est bon, dans le
cas d'une régression linéaire simple c'est tout simplement la valeur
sur la droite. C'est à dire dans l'exemple des données présentées plus
haut pour un sportif âgé de 50 ans, c'est la fréquence seuil obtenue
par le calcul:
fréquence théorique
= 174,22 - 50* 0,111 = 168,67
Le résidu pour une observation c'est l'écart entre la valeur observée,
et la valeur théorique.
résidu = valeur observée - valeur théorique
Pour le seul individu de 50 ans de l'échantillon la fréquence vaut
165 le résidu vaut
165 - 168,67 = -3,67
La somme des carrés des résidus s'appelle la somme des carrés
résiduelle. C'est une mesure de l'adéquation entre le nuage et la
droite, dans le cas de la régression linéaire simple, plus
généralement cela mesure, globalement l'écart entre les valeurs
prédites par le modèle et les observations.
Plus on met de paramètres dans un modèle et plus le modèle est
complexe. Un modèle complexe a plus de chance de s'approcher des
données, si on ne tient compte que de la mesure globale de l'écart
entre les observations et les données, mentionnée plus haut on risque
d'avantager le modèle le plus complexe. Si on ne dispose que de deux
observations, et que l'on fasse une régression linéaire simple on est
sur que la droite passera par les deux points est l'ajustement du
modèle aux données sera parfait. Il existe un concept important en
modélisation qui permet d'éviter ce genre de pratiques, c'est celui de
degré de liberté. Le degré de liberté associé à la somme résiduelle
des carrés est grosso modo égal aux nombres d'observations moins le
nombre de paramètres dans le modèle.
degrés de liberté = nombre d'observations - nombre de paramètres
Dans la régression le nombre de paramètres du modèle est deux, a et b. On divise les sommes de carrés par les degrés de liberté associés, un critère simple pour dire si un modèle est meilleur qu'un autre est d'avoir le plus petit rapport entre la somme de carrés résiduelle et le nombre de degrés de liberté résiduels.