Page principale

Régression linéaire

On s'intéresse dans cette page au problème de la régression linéaire dans le plan, que l'on peut énoncer de la façon suivante : étant donné un ensemble de points du plan, comment déterminer la droite «la plus proche» de ces points (appelée droite de régression).
En pratique, les régressions sont très utilisées sur des données expérimentales : on procède à une série d'expériences, où l'on fait varier un paramètre $x$, et où l'on mesure une grandeur $y$. On note $(x_i, y_i)$ les résultats obtenus. Déterminer si les points $(x_i, y_i)$ sont «presque alignés» - et les paramètres de la droite correspondante - permet d'établir s'il existe une corrélation linéaire entre $x$ et $y$ - et quelle est cette corrélation (est-ce-que doubler la valeur de $x$ double la valeur de $y$ par exemple ?). C'est par exemple utile pour étalonner un appareil de mesure.
Voici une possibilité de formulation plus formelle :
Méthode des moindres carrés
Soient $(x_i, y_i)_{i\in\{1...n\}}$ des points du plan. On cherche des réels $a$ et $b$ tels que la quantité $$\sum_{i=1}^n(y_i-(ax_i+b))^2$$ soit minimale.
$(y_i-(ax_i+b))^2$ peut être vu comme une mesure de l'écart (vertical) entre la droite de régression d'équation $y=ax+b$ et le point $(x_i, y_i)$.

Ce choix est discutable, on pourrait penser à : Le choix de $(y_i-(ax_i+b))^2$ est justifié par des raisons à la fois théoriques et pratiques :
Ces derniers aspects sont détaillés dans le document suivant - sous forme de TDIl est nécessaire d'avoir suivi un cours sur les espaces euclidiens pour le faire., dont voici la correction.

Si vous n'avez pas encore étudié les espaces euclidiens, l'idée est naïvement la suivante : on voit l'ensemble des points comme un vecteur $\vec{v}$ d'un certain espace $E$$E=\mathbb{R}^n$. Dans cet espace, l'ensemble des droites de régression est représenté par un plan $F$ - si $\vec{v}$ est dans $F$, c'est que les points sont parfaitement alignés. Si $\vec{v}$ n'est pas dans le plan, mais en est «proche», c'est que les points sont «presque» alignés. La projection de $\vec{v}$ sur $F$ donne la droite de régression - et la distance entre $\vec{v}$ et $F$ donne une indication de «à quel point les points sont alignés».
En renormalisant d'une certaine façon cette distance, on obtient le coefficient de corrélation, qui varie dans $[-1, 1]$. Ce coefficient quantifie le fait que les variations des $y_i$ soient corrélées à celles des $x_i$. Il vaut 0 s'il n'y a aucune corrélation, et 1 ou -1 s'il y a une forte corrélation (ce qui ne prouve pas nécessairement une causalité, cela fait toujours du bien de le rappeler...)

Coefficient de corrélation :
La simulation ci-contre permet d'obtenir la droite de régression d'un ensemble de points, ainsi qu'une valeur approchée du coefficient de corrélation :
Dans le cas de points presque alignés horizontalement, on constate que le coefficient de corrélation est faible - ce qui est lié à la façon dont il est normalisé. Cela montre les limites de l'interprétation géométrique des moindres carrés. Les choses sont plus intuitives statistiquement : dans ce cas, faire varier $x$ n'entraine pas de variation significative de $y$ - il n'y a donc pas lieu de considérer que ces quantités sont corrélées, même si les points expérimentaux sont presque alignés.

Le dernier bouton fait apparaitre une situation où l'un des points est un outlier (donnée aberrante en français, mais ce terme pose problème, la donnée ne l'étant pas nécessairement... On parle parfois également de valeur extrème.). On constate que celui-ci déplace la droite de régression, et diminue fortement le coefficient de corrélation (comparer avec la situation où on replace ce point proche de l'alignement des autres).

Les moindres carrés sont très sensibles à ce genre de données. Plusieurs approches sont possibles pour y remédier :
Voici ci contre une simulation de régression utilisant une minimisation de $\sum_{i=1}^n|y_i-(ax_i+b)|$ (on parle de régression en norme $L^1 - par opposition à la régression en norme $L^2$ présentée ci-dessus). En pointillés, la droite de régression linéaire est tracée. On constate que la régression en norme $L^1$ est naturellement insensible aux outliers. Elle présente cependant de nombreux inconvénients :


Les régressions linéaires sont souvent utilisées comme des boîtes noires, mais il est bon d'être capable a minima de les ouvrir afin de comprendre leurs limitations, et de faire preuve de plus de souplesse dans leur utilisation...

Digression finale : moyenne et médiane

La différence mentionnée ci-dessus entre régression en norme $L_1$ et $L_2$ est reliée aux notions de moyenne et médiane.
Considérons un ensemble non-vide de réels $\{r_1,\dots, r_n\}$. On souhaite trouver le réel $m$ le «plus proche» ou «rendant le mieux compte» de ces réels.
On peut voir au moins deux façons de faire cela. Les médianes sont un indicateur plus robustes que la moyenne - elles sont moins sensibles aux outliers. Par exemple, si l'on augmente fortement la valeur du point maximal de l'ensemble, on ne modifie pas les médianes (dans le cas où il y a au moins trois points dans l'ensemble). C'est pour cela que l'on parle de salaire médian plutôt que moyen, ou encore que je calcule des médianes de colles plutôt que des moyennes...
Autre argument en faveur des médianes :
Pourquoi calculer alors des moyennes ?