Mon parcours et mes projets en datascience


Analyse d'une activité de location saisonnière avec Airbnb


La problématique de l'hôte et de sa politique de gestion

Airbnb est un site internet permettant la diffusion d'annonces de locations saisonnières. Le propriétaire ou le gestionnaire du logement (hôte) peut créer un compte et créer une annonce. Le client (voyageur) peut consulter les annonces et faire une demande de location directement à l'hôte. Le site internet se positionne en tiers de confiance pour le paiement et les litiges. Un système de commentaires réciproques sur le voyageur et le logement construit la réputation des deux parties.

Pour optimiser son taux de remplissage et son revenu, l'hôte peut paramétrer de nombreuses options :

Ces paramètres peuvent quasiment être modifiés pour chaque jour de l'année ce qui complexifie la gestion pour l'hôte.

L'objectif de cette page est d'analyser les données de gestion d'une activité Airbnb afin de faire des recommandations pertinentes à l'hôte. Les données ont été récupérées depuis son compte Airbnb : il s'agit du registre de toutes les demandes qui ont été effectuées sur son annonce.
La population étudiée est l'ensemble des demandes effectuées depuis 2015, soit 271 demandes. Les principales variables caractérisant cette population sont :
Dans un premier temps, les résultats sont présentés sous forme d'un tableau de bord, puis dans un second, une série de plusieurs analyses permet de répondre en détail à certaines problématiques de gestion.

Tableau de bord

Cette section présente un tableau de bord succint de l'activité. Pour préserver l'anonymat du loueur, aucune référence n'est faite au logement et les revenus ont été normalisés à 100€ en moyenne. Les graphiques ont été produits avec Matplotlib, il ne s'agit pas d'images interactives comme on peut les rencontrer sur les sites web qui utilisent javascript.

Page Git-hub du projet

Revenus générés par an
Cette métrique présente le revenu annuel de l'activité. Il tient compte des revenus réalisés et des revenus futurs (demandes au statut "Acceptée").
Taux de suite des demandes
Les demandes de location de la part des voyageurs n'aboutissent pas toutes à une location. L'hôte peut refuser la demande, le voyageur peut ne pas confirmer sa première intention (demande "Expirée") et il peut se rétracter (demande "Annulée"). Pour l'hôte, refuser trop de demandes peut avoir un impact sur la visibilité de son annonce sur le site Airbnb.
Délais entre réservation et entrée dans les lieux
La différence entre la date de réservation et la date d'entrée dans les lieux constitue un délai. Surveiller l'évolution du délai par rapport aux années précédentes permet d'ajsuter sa politique de prix, durée minimale etc.
Nombre total de nuits réservées par an
Le nombre total de nuits réservées par année est le facteur numéro 1 du revenu annuel généré.
Nombre de nuits moyen par séjour
Un nombre moyen de nuits par séjour élevé est synonyme de moindres coûts : moins de communication, moins d'états des lieux, moins de nettoyage etc.
Retrospective des revenus futurs
Rétrospectivement, chaque année à la même date qu'aujourd'hui, quels étaient les montants de revenu déjà actés par les locations futures. Cette métrique permet de comparer ses réservations futures actuelles aux mêmes réservations futures des années précédentes.

Autres analyses supplémentaires :

Rester sur une durée minimale de location d'une nuit

Louer pour une nuit est frustrant pour l'hôte : gestion des arrivées et des départs, nettoyage et revenu minimal. L'analyse montre pourtant que dans son cas, l'hôte ne peut pas se passer des courts séjours. La figure A montre que l'essentiel des revenus est assuré par les séjours d'une nuit, puis les séjours de trois et quatre nuits. En revanche, la figure B montre que le délai médian pour les séjours d'une nuit est supérieur à celui des séjours de 2, 3 ou 4 nuits mais inférieur à celui des séjours de 5 nuits ou plus (qui restent en revanche assez rares). Les voyageurs d'une nuit, plus anticipateurs, empêcheraient-ils les voyageurs de 3 à 4 nuits de réserver ?

Nous pouvons préconiser une gestion dynamique du calendrier : à long terme autoriser les séjours de 3 nuits et plus, puis à court terme, autoriser les séjours à partir d'une seule nuit.

Revenus totaux par durée de séjour
Figure A : Revenus totaux par durée de séjour
Délai médian selon le nombre de nuits du séjour
Figure B : Délai médian selon le nombre de nuits du séjour

Augmenter le préavis de réservation

Les réservations de dernière minute ne rapportent pas plus que les autres (4,6% du revenu total potentiel), mais pire, elles incitent fortement l'hôte à refuser la demande. Refuser une demande est une action possible pour l'hôte mais elle entraine à moyen-terme une moins bonne visibilité de l'annonce. La Figure C montre que les demandes de réservation réalisées une ou deux nuits avant la date d'entrée dans les lieux ont un taux de refus bien supérieur aux autres demandes. La figure D montre que les revenus potentiels des réservations de dernière minute (un ou deux jours avant) sont négligeables par rapport au revenu potentiel total.

Taux de suite selon le délai de réservation
Figure C : Taux de suite selon le délai de réservation
Revenu potentiel total selon le délai de réservation
Figure D : Part dans le revenu potentiel total selon le délai de réservation

Ajuster légèrement le prix par nuit

Si l'hôte peut diminuer son taux de refus, il ne peut guère influencer l'issue de la demande : celle-ci va-t-elle aboutir sur une réservation acceptée ou va-t-elle expirer ? Plusieurs variables expliqueront que le logement ne soit pas réservé : il ne convient pas, un autre a été trouvé etc. Le prix semble avoir son influence sur le statut final de la demande. La figure E présente les revenus du séjour en fonction de sa durée et distingue le statut de la demande (Acceptée ou Expirée).

Revenus du séjour selon la durée du séjour
Figure E : Revenus du séjour selon la durée du séjour

Le machine-learning peut apporter un éclairage intéressant à cette problématique. Il s'agit d'un problème de classification. Les variables d'entrées sont :

La variable de sortie est le statut de la demande (ici variable binaire "Acceptée" ou "Expirée").

L'échantillon se décompose en : La librairie Python Scikit-learn est utilisée pour résoudre ce problème de classification. Trois modèles seront testés :

Revenu du séjour selon la durée du séjour
Figure F : Classification par régression logistique

Score = 0,79

Revenu du séjour selon la durée du séjour
Figure G : Classification par SGDClassifier

Score = 0,70

Revenu du séjour selon la durée du séjour
Figure H : Classification par SVC

Score = 0,79

Les figures F à H présentent les résultats des trois modèles sous forme de carte avec la frontière de la décision (DecisionBoundary). Les axes des abscisses et des ordonnées représentent respectivement le nombre de nuits du séjour et les revenus du séjour. Les points croisent ces deux variables et la couleur symbolise l'issue de la demande (violet : 0, expirée ; jaune : 1, acceptée), il s'agit des données issues de l'observation. Les deux zones colorées représentent les résultats du modèle (0 ou 1) quand il est appliqué aux variables et la frontière serait le revenu maximal du séjour par nuit tout en ayant la demande de réservation acceptée.

Les scores obtenus par les trois tentatives de modélisation ne sont pas plus élevés que si l'on avait classifié les données au hasard. C'est donc un échec.

Il reste une autre option pour essayer de déterminer le prix maximal par durée de séjour :

  1. Nous transformons la variable prix, quantitative, en fourchette de prix, variable qualitative.
  2. Nous calculons, dans un tableau croisé dynamique, la probabilité d'acceptation de la demande. Ce tableau croise intervalle de prix et durée du séjour.
Les résultats sont présentés dans la figure I. L'hôte peut désormais voir par durée de séjour à partir de quel niveau de prix la probabilité de succès d'une demande Acceptée chute.

Il est à noter que cette analyse est possible parce que l'hôte a expérimenté plusieurs politiques de prix depuis 2015. Nous recommandons à l'hôte d'augmenter légèrement ses prix et de voir à moyen terme si c'était une bonne idée ou non.
Revenu du séjour selon la durée du séjour
Figure I : Probabilité d'acceptation selon l'intervalle de prix du séjour et la durée du séjour

Conclusion

Pour les hôtes Airbnb, l'analyse du registre des demandes permet de bâtir des tableaux de bord de suivi de l'activité et de résoudre des problématiques de gestion. Dans notre cas, l'hôte va pouvoir légèrement augmenter ses prix et ne sera plus contraint de refuser des demandes de dernière minute car elles ne seront plus autorisées.

D'un point de vue purement statistique, au fur et à mesure que l'hôte ajuste sa stratégie, les caractéristiques des futures réservations se modifient et les données ne sont plus tout à fait indépendantes et identiquement distribuées. Par exemple, en interdisant les réservations de dernière minute, il n'y en aura plus et l'analyse montrera que la part de ces réservations dans le revenu potentiel total est négligeable car il n'y aura plus de nouvelles réservations de dernière minute pouvant infirmer ce fait.