Mon parcours et mes projets en datascience


Comment pleinement observer la disparité des EPCI de Haute-Savoie en matière de parc et d'occupation des logements ?


Problématique

La Haute-Savoie est le Département de France métropolitaine qui connait le plus fort taux de croissance démographique. Cadre de vie sympathique, proximité avec la Suisse, existence d'une industrie de pointe (décolletage) et présence de nombreuses stations de sport d'hiver sont autant de facteurs explicatifs de cette attractivité. Néanmoins, ce sont de nombreux défis qui attendent les aménageurs pour permettre de garantir un cadre de vie satisfaisant pour tous dont le logement est la priorité.

Bien que la Haute-Savoie soit un territoire de montagne, elle comporte en son sein plusieurs territoires différents et semblables à la fois. Ces derniers ne seront pas tous confrontés aux mêmes problématiques et les mêmes politiques publiques ne pourront pas être appliquées.

A travers l'exemple des données relatives au logement que l'on peut se procurer sur le site de l'INSEE, l'objectif de ce projet est de montrer comment le recours à des outils de datascience comme l'analyse en composantes principales et le clustering peuvent compléter une analyse réalisée avec des cartes.

Dans un premier temps une série de carte sera réalisée pour étudier le Département selon plusieurs variables. Puis dans un second, nous appliquerons aux données une analyse en composantes principales et un clustering.

Cartographie du logement en Haute-Savoie, par EPCI

L'INSEE produit annuellement une enquête logement à partir de la mise à jour du recensement qu'il réalise de manière glissante. Cette enquête produit deux types de résultats :

Cette dernière base, qui est assez facilement téléchargeable sur le site de l'INSEE, sera exploitée dans le cadre de ce projet car elle permet de faire des comparaisons entre EPCI.

Pour chaque IRIS du territoire, la base contient le nombre total de logements, de résidences principales, de résidences secondaires, de maisons, d'appartements etc. La base contient également le nombre de résidences principales selon la période de construction, selon la surface etc.

La méthodologie est la suivante : la base de données de l'INSEE est agrégée à l'échelle communale et elle est enrichie par jointure de l'EPCI correspondant à chaque commune. Une base de données des géographies des communes est récupérée sur le site de Gregoire David. Une jointure est réalisée sur le fichier des géométries afin d'ajouter les données de l'INSEE. Enfin ce fichier est agrégé à l'échelle intercommunale pour la réalisation des cartes.


Taux de résidences principales
Taux de résidences principales par EPCI.
Taux de résidences secondaires
Taux de résidences secondaires par EPCI

La Haute-Savoie est une zone touristique et cela se remarque dans sa géographie par une sur représentation des résidences secondaires dans les EPCI de l'est du Département. Pour mémoire, l'INSEE dénombre 500 000 logements en Haute-Savoie, dont 350 000 résidences principales, soit un taux 70% contre 90% à l'échelle française.


Taux de maisons individuelles
Taux de maisons individuelles parmi les résidences principales.
Taux de logements construits avant 1990
Taux de logements construits avant 1990 parmi les résidences principales.

Parmi ses résidences principales, la Haute-Savoie compte 4 appartements pour 3 maisons individuelles, en France c'est l'inverse. Avec 4388km2 le Département est plutôt grand et si sa densité (190hab/km2) est supérieure à la moyenne française, elle reste correcte. Une explication plausible pour la prévalence d'appartements sur les maisons individuelles est certainement qu'une part de foncier est moins mobilisable que dans d'autres départements (territoire de montagne au relief abrupt).

Au niveau de l'âge du parc de logements, la date de 1990 a été choisie comme pivot entre l'ancien et le récent (existence de la réglementation thermique en 1988). Dans l'absolu, le taux de logements anciens en Haute-Savoie est moins élevé qu'en France (61% contre 73%). Cela est dû à la présence d'un parc récent près de la frontière suisse (CC Genevois, CC Pays de Cruseilles, CC Fier et Usses, CC Arve et Salève, CC du Pays Rochois). A contrario, pour la CC Vallée de Chamonix Mont-Blanc et la CC Pays du Mont-Blanc, le parc de résidences principales construites avant 1990 est important (respectivement 72% et 69%).


Taux d'emménagements inférieurs à 5 ans
Taux d'emménagements inférieurs à 5 ans.
Taux de propriétaires occupants
Taux de propriétaires occupants.

Parmi les informations que l'enquête logement de l'INSEE dispose, il y a le nombre de logements occupés depuis moins de n années. Dans cette étude, c'est une durée strictement inférieure à 5 ans qui a été choisie pour définir ce qu'est un emménagement récent. Avec sa croissance démographique importante, la Haute-Savoie affiche un taux d'emménagements inférieur à 5 ans élevé par rapport à la France (36% vs 33%). Tous les EPCI ne subissent pas une rotation de leur parc de la même manière : c'est essentiellement la CC Genevois (avec 42% d'emménagements inférieurs à 5 ans), les autres EPCI membres du Pôle Métropolitain du Genevois Français , la CC Cluses Arve et Montagnes ainsi que le Grand-Annecy.

Avec 60% de propriétaires occupants, le Département de la Haute-Savoie est dans la moyenne française. Les EPCI plutôt urbains ont un taux légèrement inférieur, voire bien inférieur (CC Annemasse les Voirons 47%). Les EPCI a dominante rurale ont un taux de propriétaires occupants plus important.


Analyses supplémentaires avec les outils de datascience

A partir de quelques cartes et de ratio nous avons pu dresser un premier portrait de la Haute-Savoie, et repérer quelques ressemblances et dissemblances entre les EPCI. Le problème c'est qu'une carte permet de comparer un nombre limité d'informations à la fois :

Les deux premières informations sont présentes dans chaque carte par défaut (c'est le principe de base d'une carte que d'inclure ces informations).

L'analyse en composantes principales est un peu plus complexe à appréhender mais elle permet justement de pleinement visualiser les ressemblances et dissemblances entre individus de l'échantillon (ici des EPCI).

Le principe est le suivant : chaque EPCI est représenté par 10 variables (taux de résidences principales, taux de maisons individuelles etc...). Or il s'avère que parfois certaines variables sont plutôt corrélées entre-elles. Par exemple, un taux de propriétaires occupants important est corrélé avec un taux de maisons individuelles important car l'aspiration du français moyen est d'habiter une maison avec jardin dont il est propriétaire. A contrario les EPCI qui connaissent un fort taux d'emménagements récents connaitront un fort taux de locataires et d'appartements car les nouveaux arrivants ne réalisent pas tout de suite un projet immobilier et les maisons individuelles étant occupées par leur propriétaire, ce sont des appartements qui restent disponibles pour la location.

Si nous faisions les corrélations 2 à 2, une matrice de corrélation de 100 cases pourrait être produite. Elle serait assez fastidieuse à déchiffrer et elle ne renseignerait absolument pas sur les EPCI, uniquement sur les variables.

Par contre, sachant que certaines variables sont corrélées entre-elles, alors étudier les EPCI selon toutes les variables séparement n'apportent rien de plus car un fort taux de X rime avec un fort taux de Y. Autant étudier les EPCI avec des variables agrégées.

Et c'est précisement ce que fait l'Analyse en composantes principales : elle combine les variables entre elles pour former des variables agrégées et nous étudions les EPCI sur cette nouvelle base. Dans le jargon, nous parlerons de facteurs et de représentation des individus (EPCI) dans le plan factoriel. Un algorithme permet de détecter automatiquement les facteurs qui maximisent l'information.

Dans notre cas, l'algorithme a produit 10 facteurs explicatifs mais les deux premiers expliquent à eux-seuls 80% de la dispertion entre les EPCI. Nous ne retiendrons que ceux-là.

L'autre outil puissant issu de la datascience est le clustering : il s'agit de répartir les EPCI en différents groupes centrés autour de profils moyens fictifs. Un algorithme propre au clustering (K-means) permet de déterminer les profils moyens fictifs et indique pour chaque EPCI à quel groupe il se rattache.

L'analyse en composantes principales et le clustering ont été effectués et les résultats sont présentés dans le graphique ci-dessous :

Plan factoriel

Les EPCI se répartissent dans un plan factoriel à deux facteurs :

Le clustering a permis de créer 4 groupes d'EPCI. Sur le graphique, les groupes sont repérés par une couleur et leur position dans le plan factoriel permet de comprendre le profil sous-jacents :

Profil Taux-Résidences principales Taux-Résidences secondaires Taux-Logements vacants Taux-Logements anciens Taux-Maisons individuelles Taux-Ménages ayant emménagés moins de 5 ans Taux-Propriétaires occupants Taux-Locataires Taux-Locataires-hlm Taux- Ménages logés gratuitement
EPCI_1 0,82 0,11 0,07 0,59 0,39 0,38 0,56 0,41 0,14 0,03
EPCI_2 0,37 0,59 0,04 0,67 0,52 0,32 0,64 0,31 0,08 0,05
EPCI_3 0,74 0,19 0,08 0,64 0,65 0,30 0,70 0,27 0,08 0,03
EPCI_4 0,88 0,05 0,07 0,52 0,61 0,33 0,70 0,28 0,08 0,02



Conclusion

L'analyse cartographique a permis de produire une série de cartes illustratives intéressante. Mais grâce au clustering et à l'analyse en composantes principales, des EPCI éloignés sur le plan géographique se révèlent proches par leurs caractéristiques. Il y a un intérêt pour eux ou pour les services de l'Etat de faire un rapprochement au niveau des problématiques rencontrées et des politiques publiques à appliquer.

Ces outils ne sont pas non plus parfaits. Par exemple l'EPCI Faucigny-Glières se retrouve dans le groupe des EPCI urbains alors qu'il fait seulement 27 000 habitants contre 40 000 à 200 000 pour les autres. L'EPCI Vallée de Chamonix Mont-Blanc est bien dans le groupe des stations de ski, mais même dans celui-ci ses caractéristiques le rendent atypique. De manière générale, si d'autres variables avaient été prises en compte, les axes factoriels et les groupes auraient été différents.

Comme tout outil d'analyse, ce qui importe ensuite est l'usage qui en est fait avec les acteurs du territoire afin de compléter le diagnostic.