Mon parcours et mes projets en datascience


Efficacité d'une politique publique


Problématique de l'évaluation

Haute-Savoie Rénovation Énergétique (HSRE) est un dispositif du Département de la Haute-Savoie financé conjointement par les collectivités locales, le Département, la Région et l’Etat. C’est un guichet de conseils gratuits, neutres et indépendants sur la rénovation énergétique. Il permet aux ménages de faire les bons choix en termes de travaux et de s’assurer que leurs devis soient conformes pour les demandes d’aides financières.

L’évaluation du dispositif reste complexe. Quand nous interrogeons nos conseillers, ils expriment une information subjective basée sur leur propre expérience. Heureusement, il y a une autre piste : un des financeurs, l’Etat, a confié à l’ADEME le soin de piloter au niveau national l’ensemble des dispositifs de ce type. L’ADEME a inclus une évaluation sous forme d’enquête envoyée par courriel aux usagers un an après leur premier contact. Elle permet de savoir si les bénéficiaires du dispositif effectuent des travaux, et lesquels, mais malheureusement, elle ne renseigne pas sur l’efficacité intrinsèque du dispositif car il n’y pas de contrefactuel.

Nous proposons d’enrichir l’enquête de l’ADEME avec notre propre évaluation pour mesurer l'efficacité du service : une enquête avec groupe témoin et redressement des données afin d’avoir un contrefactuel avec lequel comparer les résultats des ménages qui sont passés par HSRE. Après avoir expliqué le principe des analyses avec groupe contrôle, nous présenterons comment redresser les données et enfin nous évoquerons comment cette méthode est exploitée dans le cas de la mesure de l'efficacité d’une politique publique.

Evaluation avec groupe témoin

Pour connaître l’efficacité intrinsèque du dispositif HSRE, nous avons besoin de comparer le comportement des ménages ayant recours au dispositif avec celui des ménages n’y ayant pas recours. Cela se traduit par la constitution de deux groupes :

C’est la même méthodologie que pour évaluer l’efficacité d’un traitement médical : un groupe test reçoit le traitement, un groupe témoin ne le reçoit pas, nous mesurons un certain nombre de variables sur les deux populations, et nous regardons s’il y a des différences notables.

Pour constituer ces deux groupes, une enquête en ligne a été auto-administrée au printemps 2023. Les questions suivantes ont été – entre autres – posées : En réalité, l'enquête permet la constitution de quatre groupes (Travaux vs. Absence de travaux) X (Recours à HSRE vs. Non recours à HSRE). Seules les comparaisons entre le groupe test et le groupe contrôle nous intéressent (les groupes ayant fait des travaux).

Redressement des données

Environ 420 personnes ont répondu à l’enquête en ligne. Les répondants ne représentent pas la population Haut-Savoyarde : il y a une surreprésentation des ménages de catégorie sociale supérieure et des propriétaires comme c’est souvent le cas dans les enquêtes auto-administrées.

Le redressage des données consiste à affecter un coefficient (un poids) aux individus de l’enquête afin que lorsque nous utilisons une somme pondérée, nous retrouvons la valeur totale qui existe dans la population générale. Par exemple, si dans notre enquête, il y a 40 individus de catégorie socio-professionnelle « artisan, chef d’entreprise » et que dans la population générale ceux-ci sont au nombre de 50 000, alors chaque individu de cette catégorie se verra affecter un poids de 1 250.

Dans le cadre de notre enquête sur l’efficacité du dispositif Haute-Savoie Rénovation Energétique, le seul défi en termes de programmation est l’algorithme de redressage. En effet, malgré plusieurs recherches, nous n’avons pas trouvé d’outils clés en main et nous avons dû écrire nous-même l’algorithme de redressement

Il est en fait assez simple. Nous disposons de deux datasets : la base de données issue de l’enquête et la base de données de l’enquête logement de l’INSEE. Cette enquête annuelle de l’INSEE ne se fait pas sur toute la population de chaque département, mais sur 20% des ménages : ils ont déjà un poids pour assurer la représentativité (variable « IPONDI »).

Nous agrégeons la base de l’INSEE selon la double variable (catégorie socio-professionnelle, statut d’occupation). La variable «IPONDI » (le poids des individus) est sommée.

Nous réalisons ensuite une jointure INTERNE pour injecter IPONDI dans le dataset de notre enquête. Le poids final de chaque individu sera donné par IPONDI/(nombre d’individu de la catégorie), l’attribut de cette variable sera renommé weight et c’est ce poids qui sera utilisé dans l’exploitation de l’enquête.

#1. Nous créons un dataset où nous comptons les occurrences de l’enquête selon la double variable Statut-PCS
data_enquete_count=pd.pivot_table(data_enquete, values="one", index=["Statut","PCS"], aggfunc='count')

#2. Nous faisons la même chose pour les données de l’Insee
data_insee=data_insee[["Statut","PCS","IPONDI"]].groupby(["Statut","PCS"]).sum()

#3. Nous fusionnons ces deux dataframes de comptage
W=pandas.merge(data_enquete_count,data_insee, on=["Statut","PCS"], how="inner")

#4. Nous calculons le vrai poids de chaque individu selon sa catégorie socio-professionnelle
W["weight"]=W["IPONDI"]/W["one"]

#5. Nous injectons cette information dans le dataframe de l’enquête
data_enquete=pd.merge(data_enquete, W, on=["Statut","PCS"], how="inner")

Exploitation de l'enquête

Le redressement permet de produire des statistiques de types totaux, moyennes et proportions. Mais les résultats ne seront pas présentés ici du fait de leur confidentialité. En termes de méthodologie l’enquête a permis de produire des comparaisons entre les deux groupes sur les variables suivantes :

Les deux premières informations ont été injectées dans un modèle simplifié de Diagnostic de la Performance Énergétique (DPE), ce qui a permis de comparer, en termes de consommation énergétique et d’émissions de CO2, une rénovation guidée par HSRE et une rénovation réalisée sans recours à l’assistance du service public. Le modèle simplifié de DPE a été créé par mes soins sur une interface excel en reprenant la note de calcul de l’arrêté définissant la méthode de calcul du DPE.

Conclusion

Les deux premières informations ont été injectées dans un modèle simplifié de Diagnostic de la Performance Énergétique (DPE), ce qui a permis de comparer, en termes de consommation énergétique et d’émissions de CO2, une rénovation guidée par HSRE et une rénovation réalisée sans recours à l’assistance du service public. Le modèle simplifié de DPE a été créé par mes soins sur une interface excel en reprenant la note de calcul de l’arrêté définissant la méthode de calcul du DPE

D’un point de vue statistique, une évaluation plus poussée nécessite en revanche de comparer les résultats produits en refaisant le redressement avec plusieurs clés différentes pour s’assurer une convergence des résultats.

D’un point de vue statistique, une évaluation plus poussée nécessite en revanche de comparer les résultats produits en refaisant le redressement avec plusieurs clés différentes pour s’assurer une convergence des résultats.