Atelier Mapme : Evaluation d’impact sur données spatiales
October 1, 2024
Est-ce que le statut d’Aire Protégée a un impact sur le couvert forestier ?
C’est à dire :
\[E[CF1|AP = 1] - E[CF1|AP = 0]\]
avec \(CF1\) le couvert forestier d’une zone si c’est une AP et \(CF0\) le couvert forestier s’il n’y a pas d’AP, pour la même zone et au même moment.
Quel est le problème ?
Le problème évident est qu’on n’observe pas simultanément les deux états : quel contrefactuel ?
Exemple sur une aire protégée :
Zone | Couvert forestier |
---|---|
Makira | \[CF_M = M + AP\] |
Autre | \[CF_A = A\] |
Note : \(M\) représente l’effet fixe Makira et \(A\) l’effet fixe de l’Autre.
Effet causal :
\[CF_M - CF_A = M + \underbrace{AP}_{effet} - A\]
\[ \Rightarrow M - A \]
\(M - A\) correspond aux différences de couvert forestier sans AP
\(\Rightarrow\) biais
Le principe de la méthode d’appariement est de minimiser la différence entre \(M\) et \(A\), c’est-à-dire de trouver un espace qui ressemble le plus possible à l’espace qui est protégé, son jumeau.
On va chercher le “jumeau” grâce à des caractéristiques que l’on peut mesurer, c’est-à-dire des caractéristiques observables \(X\), et on va comparer les résultats entre ces espaces qui se ressemblent !
Hypothèses sous-jacentes :
\[ (Y 1 ,Y 0 ) ⊥ T|X \]
L’hypothèse d’indépendance conditionnelle :
\(\Rightarrow\) Conditionnellement aux caractéristiques observables \(X\), les résultats moyens des unités qui ne bénéficient pas du programme peuvent servir de contrefactuel des résultats moyens des unités qui bénéficient du programme en l’absence de ce dernier.
\(\Rightarrow\) L’indépendance conditionnelle permet de ne plus avoir de problème de sélection i.e d’obtenir des estimateurs sans biais de l’effet du traitement (conditionnel aux observables).
Assouplissement de l’hypothèse d’indépendance conditionnelle lorsque l’on s’intéresse à l’effet du traitement sur les unités traitées (ATT) :
\[ Y(0) \perp T \mid X \]
\(\Rightarrow\) Conditionnellement aux caractéristiques observables \(X\), le résultat des unités non-traitées (\(T = 0\)) représente un contrefactuel non biaisé du résultat potentiel moyen des unités pour lesquelles \(T = 1\) en l’absence de traitement \(T\).
Implication de l’hypothèse d’indépendance conditionnelle (CIA)
\(\Rightarrow\) En dehors des observables (\(X\)), il n’existe pas d’autres caractéristiques qui influencent à la fois les résultats potentiels (\(Y\)) et l’adoption du programme (\(T\)).
Risque important que l’hypothèse ne soit pas respectée.
\(\Rightarrow\) Pour pouvoir comparer une unité traitée avec une unité non traitée identique, il faut qu’une unité non traitée identique existe !
\(\Rightarrow\) Si, pour certaines caractéristiques \(X\), les unités sont assurées d’être traitées alors il ne sera pas possible de trouver des unités non traitées comparables !
L’hypothèse d’existence d’un support commun (“overlap”)
\(\Rightarrow\) Pour chaque valeur de \(X\), on suppose qu’il existe des unités qui ont le traitement et d’autres qui n’y ne l’ont pas.
Méthodes d’appariement
our évaluer l’effet moyen sur les traités (ATE), cela revient à comparer le résultat \(Y1\) de chaque unité traitée avec le résultat \(Y0\) de l’unité non traitée ayant exactement les mêmes caractéristiques observables.
Cela revient en symétrie à exclure de l’analyse les unités qui ne sont pas comparables.
Méthodes d’appariement
\(\Rightarrow\) Pour évaluer l’effet moyen sur les traités (ATE), cela revient à comparer le résultat \(Y1\) de chaque unité traitée avec le résultat \(Y0\) de l’unité non traitée ayant exactement les mêmes caractéristiques observables.
Plusieurs variantes dans la manière de construire le contrefactuel de chaque unité et donc la manière de trouver un jumeau varient en fonction de la technique utilisée :
Voisin le plus proche
Il y a plusieurs manières de calculer la distance entre deux unités :
Distance de Mahalanobis : accorde un poids différent aux caractéristiques observables \(X\).
Score de propension : une seule mesure de proabilité de traitement (expliqué plus loin)
Les plus proches voisins
L’appariement peut être fait :
Sans remise : une unité du groupe de contrôle ne peut être appariée qu’une fois avec une unité du groupe de traitement.
Avec remise : on utilise l’ensemble de l’échantillon à chaque fois ce qui autorise des appariements avec la même unité.
Inconvénients du matching sans remise ?
L’appariement est assez simple à mettre en œuvre, son principe est intuitif et ne demande pas de choix de paramètres.
Toutefois, on ne contrôle pas la qualité de l’appariement, la notion du plus proche voisin est par nature relative.
Apparier avec un seul individu prive de l’information apportée par tous les autres ce qui réduit a priori la précision de l’estimation.
La fenêtre \(d\) mesure la taille du voisinage en dehors duquel les poids sont très faibles.
Plus la fenêtre \(d\) est petite, plus l’estimation du contrefactuel d’une unité traitée ne prendra en compte que les unités non traitées dont les caractéristiques observables sont très proches des siennes.
Il n’existe pas vraiment de règle établie pour le choix de cette fenêtre.
En pratique, le choix de la fenêtre est fait de manière ad-hoc.
Chaque méthode a des avantages et des inconvénients.
L’opposition entre la plus simple (voisin le plus proche) et la plus élaborée (noyau) reflète le dilemme classique entre biais et variance :
En pratique, on recommande de tester la sensibilité des résultats à la méthode utilisée.
Le matching exact est souvent compliqué à mettre en œuvre.
Pour que l’hypothèse CIA soit vérifiée, on souhaite utiliser le maximum d’information et donc apparier sur de très nombreuses variables. Mais plus on intègre des variables, plus il s’avérera difficile de trouver un voisin proche.
À distance finie, les estimateurs sont d’autant plus biaisés que le nombre de variables de conditionnement \(X\) est élevé (d’autant plus lorsque les variables de conditionnement sont continues).
\(\Rightarrow\) L’appariement sur le score de propension (PSM) est pragmatique et désirable.
Si l’hypothèse CIA est vérifiée, alors les résultats potentiels sont indépendants de l’adhésion au traitement conditionnellement au score de propension (Rosenbaum et Rubin, 1983).
Soit le score de propension \(\pi(X_i) \equiv P(T_i = 1 \mid X_i)\) et \(0 < \pi(X_i) < 1\), i.e. la probabilité d’être traité conditionnellement aux observables, on a :
\[ (Y(0), Y(1)) \perp T \mid X \Rightarrow (Y(0), Y(1)) \perp T \mid \pi(X_i) \]
Cette propriété diminue le nombre de dimensions des comparaisons, puisque l’on ramène le nombre de variables de conditionnement à une seule : résumé univarié de l’ensemble des covariables.
Pour tenir compte de la nature bornée du PSM, il est d’usage de le modéliser par une forme logistique (ou un probit) :
Même s’il est coutume d’estimer le PSM par un modèle logit ou probit, il convient de se rappeler que la forme fonctionnelle du PSM est souvent inconnue.
Les méthodes présentées sous l’hypothèse d’indépendance conditionnelle reposent sur l’hypothèse d’un support commun.
Celle-ci signifie qu’il existe à la fois des unités traitées et des non traitées ayant des valeurs des observables identiques, i.e. qui partagent le même PSM.
Si ce n’est pas le cas, il sera impossible de trouver pour chaque unité traitée des non traitées comparables.
\(\Rightarrow\) Il est important de vérifier que le support commun i.e. la zone sur laquelle il existe des unités traitées et non traitées qui partagent le même score de propension, est suffisamment large.
On peut représenter le support commun à partir de la distribution des scores de propension des unités traitées et non-traitées.
En pratique, on représente les histogrammes de probabilité estimée d’être traité pour les unités bénéficiaires et des non bénéficiaires du traitement étudié.
On peut ensuite vérifier l’étendue des valeurs de \(\pi(X_i)\) pour lesquelles on observe un nombre suffisant d’unités traitées et non-traitées, i.e. la largeur du support commun.
Pour estimer l’ATT, Dehejia et Wahba (1999) proposent d’éliminer :
Attention : Ce qui est alors estimé, ce n’est plus un ATE (average treatment effect), ni même un ATT (average treatement effect on the treated) mais un ATM (average teatment effect on the matched observations)
CEM : appariement sur variables regroupées en classes (traduction approximative).
Une approche qui se passe de régression linéaires ou de mesures de distance.
L’hypothèse d’indépendance conditionnelle demande d’observer les caractéristiques qui déterminent l’allocation du traitement.
En pratique, il doit s’agir de variables qui peuvent avoir un impact sur la variable d’intérêt (e.g. déforestation) et sur le choix de bénéficier du dispositif (e.g. Aire Protégée).
Deux points de vigilance : - Il ne faut pas utiliser de variables mesurées après la mise en place du dispositif et qui peuvent également affecter celui-ci → problème d’endogénéité - Il faut qu’il existe une part d’aléa ou d’exogénéité dans la sélection des unités traitées sinon il n’y a plus de support commun puisque la participation au programme est entièrement déterminée par des caractéristiques des unités.
L’effet moyen estimé sur les traités correspond à la moyenne de ces effets estimés :
\[\hat{E}[Y_i(1) - Y_i(0) | T_i = 1] = \frac{1}{n_1} {\sum}_{i \in E_1}^{n} \left( y_i(1) - \hat{y}_i(0) \right)\]
où :
- \(n_1\) est le nombre d’unités traitées
- \(E_1\) est l’ensemble des unités traitées
- \(y_i(1)\) le résultat observé de l’individu \(i\)
- \(\hat{y}_i(0)\) le résultat du plus proche voisin non traité de \(i\)
Pour mettre en œuvre une méthode d’appariement, il faut :
La crédibilité des estimateurs estimés repose sur l’hypothèse très forte d’indépendance conditionnelle.