03/05/2022
La Régression Logistique : La théorie
Le terme Régression vient des travaux du statisticien Francis Galton, qui étudiait la taille des enfants Y en fonction de la taille de leur père X. Il avait constaté que la taille moyenne des des fils dont le père avait une taille x supérieure à la moyenne E(X) était elle-même supérieure à E(Y) mais dans une moindre mesure. Il y'avait donc régression au sens ordinaire du mot.
Dans le modèle de régression, on cherche essentiellement à déterminer la variation de l'espérance mathématique de Y en fonction des variables explicatives. En d'autre termes on étudie comment Y évolue "en moyenne" en fonction de ces paramètres explicatives.
La régression linéaire constitue le point de départ historique et méthodologique de toute modélisation explicative. Ce modèle a été proposé par Francis Galton dans son œuvre NATURAL INHERITANCE publié en 1889,notamment pour l'étude de la variation de la taille d'un homme en fonction de celle de son père. Il a choisi le terme "régression" constatant qu'en moyenne un père grand tendra à avoir un fils plus petit que lui (et vice-versa pour un père petit).
Régression Logistique
La particularité ici est que la variable à expliqué est binaire, du type "succès" ou "échec". On code Y de sorte qu'il soit une v. a de Bernoulli.
Le modèle logistique
Ce modèle est adapté au cas où la variable a expliqué est binaire. En utilisant le codage 1/0 on la transforme en variable aléatoire de Bernoulli. La fonction de régression à estimer est donc :
E(Y/X =x) = p(x) ou p(x) = P(Y=1|X=x). Plus prosaïquement, le problème est de déterminer comment la probabilité du "succès" évolue en fonction du niveau de la variable X. Par exemple : quelle est la probabilité que le client d'une banque détienne des valeurs mobilières, en fonction de son niveau de revenu ?
Le modèle logistique stipule que p(x) soit de la forme d'une fonction logistique (voir figure).
Pour une loi de Bernoulli B(p) le rapport p/1-p à une certaine signification. On l'appel parfois chance ou la côte de succès (en anglais : odds).
Contrairement à la régression classique il n'y a pas de variance de l' erreur à estimer Puisqu'une loi de Bernoulli B(p(x)) ne dépend que du paramètre p(x).
Remarques sur le modèle logistique
- la régression logistique garantit des estimateurs à faible biais et ceci d'autant plus que la taille d'échantillon est élevée.
- Parmi les possibilités de choix on peut avoir les modèles probit et gombit. Le premier utilise à la place de la fonction logit la fonction de répartition de la loi normale centré réduite. Le modèle Gombit utilise la fonction h(u) = 1- exp (-exp(u)) qui permet d'attribuer des probabilités plus fortes sur les extrêmes mais n'est pas symétrique.
- Divers diagnostics et tests ont été proposés pour vérifier l'adéquation du modèle (notamment le test de Hosmer et Lemeshow, 2000).
- Si la variable explicative est catégorielle on peut appliquer la régression logistique en introduisant les variables indicatrices de chaque catégorie, sauf pour l'une d'être elles qui sert alors de catégorie de référence.
- De façon plus rigoureuse on parle de modèle logit lorsque la, ou les variables explicatives sont toutes catégorielles.
Pour approfondir le sujet de la régression avec réponse binaire on pourra consulter les ouvrages : Droesbeke, Lejeune et Saporta (2004) ou, en anglais, Agresti (2002) et Chap (1998).
Référence de la publication :
- SAPORTA G. (2006), Probabilités, analyse des données et statistiques, 2eme édition ,p72.
- LEJEUNE M. (2010),Statistique : La théorie et ses applications, 2eme édition, p289-313