On s'intéresse dans cette page au problème de la régression linéaire dans
le plan, que l'on peut énoncer de la façon suivante :
étant donné un ensemble de points du plan, comment
déterminer la droite «la plus proche» de ces points (appelée droite de régression).
En pratique, les régressions sont très utilisées sur des données
expérimentales : on procède à une série d'expériences, où
l'on fait varier un paramètre $x$, et où l'on mesure une
grandeur $y$. On note $(x_i, y_i)$ les résultats obtenus. Déterminer si les points $(x_i, y_i)$ sont «presque alignés» - et les paramètres de la droite correspondante - permet d'établir s'il existe une corrélation linéaire entre $x$ et $y$ - et quelle est cette corrélation (est-ce-que doubler la valeur de $x$ double la valeur de $y$ par exemple ?). C'est par exemple utile pour étalonner un appareil de mesure.
Voici une possibilité de formulation plus formelle :
Méthode des moindres carrés Soient $(x_i, y_i)_{i\in\{1...n\}}$
des points du plan. On cherche des
réels $a$ et $b$ tels que la quantité
$$\sum_{i=1}^n(y_i-(ax_i+b))^2$$
soit minimale.
$(y_i-(ax_i+b))^2$ peut être vu comme une mesure de
l'écart (vertical) entre la droite de régression
d'équation $y=ax+b$ et le point $(x_i, y_i)$.
Ce choix est discutable, on pourrait penser à :
considérer $|y_i-(ax_i+b)|$ à la place;
considérer la distance euclidienne de $(x_i, y_i)$ à la droite d'équation $y=ax+b$.
Le choix de $(y_i-(ax_i+b))^2$ est justifié par des raisons à la fois théoriques et pratiques :
il mène à une reformulation très naturelle du
problème dans le cadre des espaces euclidiens. Ce
qui permet des généralisations faciles;
le minimum est unique;
et «facile» à calculer (on dispose pour l'équation de la droite d'une formule explicite en fonction des coordonnées des points - qui se calcule en temps O(n)).
Ces derniers aspects sont détaillés dans le document suivant - sous forme de TDIl est nécessaire d'avoir suivi un cours sur les espaces euclidiens pour le faire., dont voici la correction.
Si vous n'avez pas encore étudié les espaces euclidiens,
l'idée est naïvement la suivante : on voit l'ensemble des
points comme un vecteur $\vec{v}$ d'un certain espace $E$$E=\mathbb{R}^n$. Dans
cet espace, l'ensemble des droites de régression est
représenté par un plan $F$ - si $\vec{v}$ est dans $F$,
c'est que les points sont parfaitement alignés. Si $\vec{v}$ n'est pas dans le plan, mais en est «proche», c'est que les points sont «presque» alignés. La
projection de $\vec{v}$ sur $F$ donne la droite de régression - et la distance entre $\vec{v}$ et $F$ donne une indication de «à quel point les points sont alignés». En renormalisant d'une certaine façon cette distance, on obtient le coefficient de corrélation,
qui varie dans $[-1, 1]$. Ce coefficient quantifie le fait
que les variations des $y_i$ soient corrélées à celles des
$x_i$. Il vaut 0 s'il n'y a aucune corrélation, et 1 ou -1
s'il y a une forte corrélation (ce qui ne prouve pas nécessairement une causalité, cela fait toujours du bien de le rappeler...)
Coefficient de corrélation :
La simulation ci-contre permet d'obtenir la droite de régression d'un ensemble de points, ainsi qu'une valeur approchée du coefficient de corrélation :
Cliquer pour ajouter ou enlever un point.
Cliquer/déplacer pour déplacer un point existant.
Dans le cas de points presque alignés horizontalement, on constate que le coefficient de corrélation est faible - ce qui est lié à la façon dont il est normalisé. Cela montre les limites de l'interprétation géométrique des moindres carrés. Les choses sont plus intuitives statistiquement : dans ce cas, faire varier $x$ n'entraine pas de variation significative de $y$ - il n'y a donc pas lieu de considérer que ces quantités sont corrélées, même si les points expérimentaux sont presque alignés.
Le dernier bouton fait apparaitre une situation où l'un des points est un outlier (donnée aberrante en français, mais ce terme pose problème, la donnée ne l'étant pas nécessairement... On parle parfois également de valeur extrème.). On
constate que celui-ci déplace la droite de régression, et diminue
fortement le coefficient de corrélation (comparer avec la
situation où on replace ce point proche de l'alignement des autres).
Les moindres carrés sont très sensibles à ce genre de données. Plusieurs approches sont possibles pour y remédier :
on peut tenter de détecter et supprimer ce genre de points de façon plus ou moins automatique. Cela peut-être pertinent s'ils correspondent à des erreurs de mesures ou de saisie de données, mais peut-être pas dans d'autres cas, où les enlever revient à trafiquer les données...
On peut utiliser des méthodes de régression plus robustes.
Voici
ci contre une simulation de régression utilisant une
minimisation de $\sum_{i=1}^n|y_i-(ax_i+b)|$ (on parle
de régression en norme $L^1 - par opposition à la régression en norme $L^2$ présentée ci-dessus). En
pointillés, la droite de régression linéaire est
tracée. On constate que la régression en norme $L^1$ est naturellement insensible aux outliers. Elle présente cependant de nombreux inconvénients :
il n'y a pas unicité de la droite de régression en norme $\mathcal{L}(1)$;
on peut voir apparaitre des phénomènes d'instabilité, où Les paramètres de la droite de régression ne sont plus des fonctions continues des points de départ... bouger légèrement l'un des points peut modifier fortement la droite de régression ;
le cadre théorique est beaucoup moins bon :
il est beaucoup plus difficile de généraliser à des régressions où l'on cherche autre chose qu'une droite ou en dimensions supérieures;
il n'y a pas de formule générale pour les solutions;
les interprétations statistiques - omniprésentes avec les moindres carrés - sont ici beaucoup plus délicates;
la droite de régression est beaucoup plus lourde à calculer algorithmiquement.
Les régressions linéaires sont souvent
utilisées comme des boîtes noires, mais il est bon d'être
capable a minima de les ouvrir afin de comprendre leurs
limitations, et de faire preuve de plus de souplesse dans
leur utilisation...
Digression finale : moyenne et médiane
La différence mentionnée ci-dessus entre régression en
norme $L_1$ et $L_2$ est reliée aux notions de moyenne et
médiane.
Considérons un ensemble non-vide de réels $\{r_1,\dots,
r_n\}$. On souhaite trouver le réel $m$ le «plus proche»
ou «rendant le mieux compte» de ces réels.
On peut voir au moins deux façons de faire cela.
Prendre $m$ qui minimise $\sum_{k=1}^n(m-r_i)^2$ (minimisation en norme $L^2$). On montre alorsÉtudier la fonction $m\mapsto \sum_{k=1}^n(m-r_i)^2$ que l'unique minimum est atteint pour $m=\frac{1}{n}\sum_{k=1}^nr_i$ (la moyenne des $r_i$)
Prendre $m$ qui minimise $\sum_{k=1}^n|m-r_i|$ (minimisation en norme $L^1$). On montre alors que les minima correspondent aux médianes des $r_i$ - i.e. les $m$ tels qu'il y ait autant de $r_i$ supérieurs à $m$, et que de $r_i$ inférieurs (au sens large dans les deux cas).
Les médianes sont un indicateur plus robustes que la
moyenne - elles sont moins sensibles aux outliers. Par
exemple, si l'on augmente fortement la valeur du point
maximal de l'ensemble, on ne modifie pas les médianes
(dans le cas où il y a au moins trois points dans
l'ensemble). C'est pour cela que l'on parle de salaire
médian plutôt que moyen, ou encore que je calcule des
médianes de colles plutôt que des moyennes...
Autre argument en faveur des médianes :
Il y a une explication simple de ce qu'est une médiane : il y a autant de valeur au dessus qu'en dessous.
Il n'y a pas à ma connaissance d'explication simple de ce qu'est une moyenne (dire que c'est la somme des valeurs divisée par leur nombre dit comme la calculer, mais n'explique pas ce que c'est...). Ma meilleure interprétation est ... que c'est l'unique quantité qui minimise $\sum_{k=1}^n(m-r_i)^2$. Si vous en avez une meilleureÀ un niveau élémentaire, pas de théorie de la mesure !, merci de me contacter !
Pourquoi calculer alors des moyennes ?
Parce qu'une moyenne est plus facile à calculer qu'une médiane, en particulier quand on ajoute de nouvelles valeurs à une série de valeurs.
Par habitude ! Le point précédent ne tenait que tant que l'on calculait les moyennes à la main...
Parce que la moyenne a de meilleures propriétés mathématiques - en particulier elle est unique.
Parce qu'on la généralise facilement à des moyennes pondérées.