Expérimentations par assignation aléatoire

Atelier Mapme : Evaluation d’impact sur données spatiales

Florent Bédécarrats

October 1, 2024

Le problème principal du modèle de Rubin

Le problème principal soulevé par le modèle de Rubin lors de l’évaluation des effets d’une intervention est l’impossibilité d’observer :

\[\mathbb{E}(Y_{0i} \mid T_i = 1)\]

Problème du contrefactuel

Question clé : Quel aurait été le résultat observé sur les unités traitées en l’absence du traitement ?
Enjeu : Trouver un contrefactuel valide / pertinent.
Menaces :
- Éligibilité au programme
- Auto-sélection ⟹ biais entre traités et non-traités
Une solution : Les essais randomisés contrôlés (ERC)

Pourquoi la randomisation ?

Randomisation : Le fait de participer au projet ou non est défini de façon aléatoire (exemple = à l’aide d’une loterie).

Deux groupes sont aléatoirement choisis au sein d’une population “homogène” :
- Un groupe bénéficie de l’intervention (vaccin, prêt, formation, statut d’aire protégée) = groupe de traitement.
- L’autre groupe ne bénéficie pas de l’intervention = groupe de contrôle.
L’assignation aléatoire permet d’obtenir deux groupes probablement très similaires (dispersion des observables et inobservables statistiquement identiques)… si les groupes sont suffisamment importants !

Pourquoi la randomisation ?

Si on tire au sort un grand nombre d’individus, la distribution dans l’échantillon est très proche de celle de la population totale :

Pourquoi la randomisation ?

Si maintenant on tire au sort un échantillon beaucoup plus petit, il y a de fortes chances pour que nos distributions diffèrent fortement de celle de la population totale.

Pourquoi la randomisation ?

Plus la taille de l’échantillon grandit, plus la distribution ressemble à celle de la population totale et la moyenne ou la médiane des groupes de traitement et de contrôle se rapprochent (avec une dimension aléatoire toutefois).

Pourquoi la randomisation ?

A partir de 1000 unités, on commence à avoir une relative similitude.

Pourquoi la randomisation?

En s’appuyant sur le tirage aléatoire de deux sous-échantillons de la population cible, nous devrions observer une distribution similaire des caractéristiques observables et inobservables :

\[ E(X \mid T = 1) = E(X \mid T = 0) = E(X) \]
De même, en l’absence du programme, la distribution des variables de résultats devrait être identique (absence de biais de sélection).
Ainsi, le groupe de contrôle devient un contrefactuel pertinent. L’hypothèse suivante devient beaucoup plus réaliste :

\[ E(Y_0 \mid T = 0) = E(Y_0 \mid T = 1) = E(Y_0) \]

Pourquoi la randomisation?

Attention ! L’hypothèse faite sur la validité du contrefactuel n’est valable qu’en moyenne (impossible de dire que (X_i(1) = X_i(0)) et que (Y_i(1) = Y_i(0))).
Nous pouvons uniquement essayer de mesurer l’effet moyen du programme qui est obtenu par :

\[ E(Y_i \mid T_i = 1) - E(Y_i \mid T_i = 0) \]

Estimation de l’effet moyen du traitement

Différence de moyennes : \[ E(Y_{1i} \mid T_i = 1) - E(Y_{0i} \mid T_i = 0) \longrightarrow \overline{Y}_1 - \overline{Y}_0 \]
Régression linéaire : \[ Y_i = \alpha + \beta T_i + \epsilon_i \] avec :
- ( ) : l’effet moyen du traitement
- ( ) : la moyenne de ( Y_i ) pour les non-traités
- ( ) : le terme d’erreur

Comment randomiser?

Quel est le processus à suivre pour “randomiser” un projet/programme/intervention? Plusieurs étapes :

Identification des unités éligibles au programme (individus, ménages, écoles, villages, aires géographiques) : les unités pour lesquelles nous voulons connaître l’impact du programme.
Sélection de l’échantillon soumis à l’évaluation (extraction de la population d’intérêt).
Assignation aléatoire du traitement (quel groupe bénéficie de l’intervention?).

Processus d’échantillonage aléatoire

flowchart TD
    A["Population éligible"] ---> AB(Faisabilité)
    AB ---> B["Échantillon étudié"]
    B ---> C("3. Assignation aléatoire")
    C ---> D["Groupe de traitement"]
    C ---> E["Groupe de contrôle"]

    style A fill:#d3d3d3,stroke:#000000
    style B fill:#d3d3d3,stroke:#000000
    style D fill:#3cb371,stroke:#000000
    style E fill:#ff6347,stroke:#000000

A quel niveau effectuer le tirage ?

Dans les faits, les unités sont souvent imbriquées :

Niveau 1 : ex. région, académie…
Niveau 2 : ex. aire protégée, classe…
Niveau individuel : parcelle, élève…

A quel niveau faut-il effectuer le tirage?

Le niveau du tirage dépend de celui de l’intervention : le niveau de randomisation ne peut être inférieur au niveau auquel est assigné le programme.

La randomisation n’est pas la panacée : sa pertinence dépend du type d’intervention ⟶ arbitrages :

Un niveau trop agrégé de l’assignation (régions, pays, provinces) diminue la puissance statistique et augmente le risque de facteurs confondants.
Assigner une intervention à un niveau très désagrégé (individu, ménage) augmente les risques de contamination du groupe de contrôle.

Validité interne

Validité interne : La différence observée sur les variables de résultats entre traités et non-traités est attribuable à l’intervention et à l’intervention seulement.

Validité interne : assignation aléatoire du traitement
- Le groupe de contrôle est similaire au groupe de traitement (en moyenne) avant l’intervention.
- Une fois l’intervention commencée, les deux groupes sont exposés au même environnement et aux mêmes évolutions temporelles.
- Groupe de contrôle : bonne représentation de ce qu’il serait arrivé aux “traités” en l’absence de traitement.
- La différence de résultats entre traités et non-traités après l’intervention est donc due à cette dernière.

Difficultés avec les ERC

Validité externe

Validité externe : Les résultats de l’évaluation sont généralisables à l’ensemble des unités éligibles (dans le temps, dans d’autres contextes).

La validité externe des ERC est faible. En effet, ils conduisent à l’obtention de résultats…
- Qui sont spécifiques à un pays, une population spécifique (celle de l’étude), à un moment donné.
- Qui ne peuvent être extrapolés à d’autres endroits du monde et sur d’autres populations.
- Qui nous permettent néanmoins de comprendre les effets d’une intervention dans un contexte spécifique.

Difficultés avec les ERC

Validité externe
Enjeux éthiques

Enjeux éthiques : les gens ne sont pas des hamsters

La sélection aléatoire conduit à refuser le traitement à un ensemble de personnes à l’instant T.
Questionnable lorsque les interventions évaluées par ERC portent sur les besoins humains.
Les ERC comme étalon-or de l’évaluation des politiques de développement? ⟶ Décrédibilisation des autres approches évaluatives.

Difficultés avec les ERC

Validité externe
Enjeux éthiques
Enjeux statistiques

Enjeux statistiques : être sûr de pouvoir détecter un effet

Les enquêtes sur un grand nombre d’individus, et la mise en place de l’attribution aléatoire de l’intervention sont coûteuses.
Arbitrage entre précision de l’évaluation et moyens financiers.
Tout ne peut pas être testé avec les ERC.

Difficultés avec les ERC

Validité externe
Enjeux éthiques
Enjeux statistiques
Contamination et externalités

Contamination et externalités : menaces sur la validité interne

Certains non-traités peuvent en réalité bénéficier de manière indirecte de l’intervention (ex : Kremer & Miguel, 2004).
L’intervention peut avoir des conséquences sur des facteurs environnementaux qui vont impacter les variables de résultats (changement de prix).
Ajustement des comportements (Hawthorne effect, John Henry effect, Découragement).

Discussion et mise en pratique