Data science : l’approche pragmatique de l’IA

L’un des principaux défis pour les entreprises est maintenant de savoir vers quelle technologie d’IA s’orienter.

Mohamed El Mrabti

DATA & IA

Comment Sofrecom vous accompagne ?

Mettre la donnée au cœur des décisions d’une entreprise en adoptant une démarche « data-centric » n’est pas anodin. Les entreprises vont devoir relever plusieurs défis : compétences, choix technologiques, organisation... Si la Data Science a le vent en poupe ces dernières années, ce n’est pas un hasard. Cette nouvelle discipline permet de structurer les projets grâce à une démarche pragmatique.

Le terme IA recouvre tout à la fois les défis, les opportunités et les technologies liés à la donnée. Si les technologies de base de l’IA existent depuis plusieurs décennies, ce n’est que depuis tout récemment que l’intérêt des grandes entreprises s’est accéléré pour l’IA et ses applications potentielles. L’arrivée du Big Data a profondément contribué à cette évolution, avec un accroissement exponentiel de la capacité à collecter et traiter des volumes de données considérables.

L’un des principaux défis pour les entreprises est maintenant de savoir vers quelle technologie d’IA s’orienter. Deux caractéristiques principales permettent d’orienter ce choix :

La recherche de reproduction, par des systèmes artificiels, des capacités cognitives de l’être humain, non définissables par des règles de façon simple (exemple : reconnaissance faciale, reconnaissance vocale, compréhension d’images...),
La notion d’apprentissage (supervisé ou non supervisé) de la machine, à savoir sa capacité à améliorer sa performance à partir de l’analyse autonome et itérative de ses résultats (exemple : prédiction, fraude, détection d’anomalies, recommandation...).

Les différentes étapes de la Data Science

Ces dernières années, la science de l’analyse de données ou Data Science s’est fortement développée. Cette nouvelle discipline permet d’explorer et d’analyser les données brutes pour les transformer en informations précieuses pour les entreprises. En d’autres termes, la Data Science a pour ambition de mettre la donnée au cœur des décisions !

Aussi, chaque étape de cette approche est clé pour prendre la meilleure décision. Nous avons identifié 6 grandes étapes que nous illustrerons par un exemple pour mieux les comprendre : le churn client (perte de clients ou d’abonnés).

La compréhension du métier

Il s’agit de définir le périmètre métier et les attentes afin de reformuler la demande et d’établir le cadre précis de l’étude.
Dans notre exemple, l’enjeu est d’identifier les clients avec le plus fort risque de churn afin de mieux cibler les campagnes marketing.

Dans le domaine télécom, les données en lien avec le churn sont les raisons (résiliation, suspension, portabilité…), la période et le type de churn (total ou relatif).

La connaissance et la préparation de la data

Il est important de bien maitriser les informations qui vont répondre à la problématique. Cette étape, souvent chronophage, permet d’identifier différentes catégories de données : les données impertinentes (doublons, incomplètes, aberrantes...) ; les données manquantes ; les données pertinentes et les données à transformer pour l’analyse.
Dans notre exemple sur le churn client, il est important de définir les sources des données à collecter comme, par exemple : le type d’usage ; les revenus détaillés par type d’usage ; les appels au centre de services, les réclamations et les informations du contrat (date fin, durée, segment).

L’analyse de la data

L’objectif de cette étape est de croiser les différentes natures de données et d’établir des liens de corrélation entre ces dernières. Il peut être intéressant à cette étape d’explorer les données par graphiques et statistiques descriptives afin d’identifier :

Les champs à distributions atypiques (difficiles à modéliser) ;
Les champs fortement corrélés (garder le plus pertinent selon le métier) ;
Les champs à transformer pour l’analyse (nombre de modalités trop élevées à regrouper, dates, horodatage…).

Dans notre cas de churn , nous avons besoin de :

Collecter les données identifiées avec un historique significatif (6 mois par exemple) ;
Définir un certain nombre d’indicateurs permettant de chercher les corrélations possibles, comme le « churn rate » ou taux d'attrition qui détermine le ratio exprimé en pourcentage du nombre de clients qui se défait d'une offre.
Tirer un certain nombre d’analyses du type : le taux de churn est élevé pour les comptes ayant plus de lignes et X% des clients résilient au moins Y% de leurs lignes ; Z% de churn sont liés à des suspensions de lignes et les churns élevés sont plutôt le fait de clients qui payent en liquide, ont des contrats sans engagement et des usages data et roaming très faibles.

La modélisation de la connaissance

Cette étape correspond à la phase de machine learning où l’on va choisir le type de modèle statistique (supervisé ou non-supervisé) à utiliser.

Il existe de nombreuses grilles qui permettent de classer les cas d’usage d’apprentissage et les algorithmes à utiliser pour résoudre les problématiques associées.

En voici quelques exemples :

https://www.rankred.com/machine-learning-cheat-sheets/
https://docs.microsoft.com/en-us/azure/machine-learning/algorithm-cheat-sheet
https://www.hebergementwebs.com/news/beat-the-heat-with-machine-learning-cheat-sheet

Dans cette étape, il faut penser à séparer les données aléatoirement en trois sous-ensembles :

Le premier jeu de données servira à construire le modèle d’apprentissage (données d’apprentissage) ;
Le deuxième sera utilisé pour tester la pertinence du modèle et choisir le meilleur (données de tests) ;
Le troisième servira à valider le modèle et évaluer la performance (données de validation).

Cela permet notamment de construire les modèles sur les données d’apprentissage (optimisés par les données de test) et de garder le plus performant sur les données de validation.

Dans notre exemple, après les analyses croisées des données, nous pourrions conclure qu’il convient d’utiliser le modèle de churn pour :

Prioriser les clients à risque dans des campagnes proactives de rétention ;
Attribuer une probabilité entre zéro et un à chaque client (plus la probabilité est proche de un, plus le client est susceptible de partir).

Pour ces cas d’usage, les algorithmes recommandés sont basés sur de l’apprentissage supervisé. Pour choisir, nous pourrions nous appuyer sur l’un des arbres d’aide au choix d’algorithmes suivant : Régression logistique, Arbres de décisions, Random Forest, GBoosted Trees et Naive Bayes.

L’évaluation des performances des différents modèles avant industrialisation

Il s’agit, à cette étape, de retenir le meilleur modèle, le modèle retenu à l’étape précédente n’étant pas forcément le meilleur en termes de performance.

L’évaluation des performances est une discipline à part entière. Elle nécessite des compétences fortes en statistiques (une méthode possible est AUC - Area Under the [ROC] Curve).

L’industrialisation

La capacité du data scientist à présenter les résultats de façon claire et pédagogique est au moins aussi importante que sa capacité à collecter et à analyser les données.

Après sélection du meilleur modèle, l’entreprise va devoir décider de le déployer (performances conformes à l’objectif), de l’améliorer (en injectant plus de données) ou de l’abandonner (le modèle n’a pas fait ses preuves (mauvaises prédictions).

Chacune de ces étapes est cruciale dans la mise en place d’un projet « data-centric » pour lui donner toutes les chances d’aboutir.

La mise en place d’une approche de Data Science n’est pas neutre et peut bouleverser le fonctionnement des métiers, parfois ancré depuis plusieurs années. Au-delà des compétences nécessaires en data science, la réussite d’un projet « data centric » s’appuie sur la capacité de l’entreprise à adapter sa façon de faire, à changer certains aspects de son organisation en prenant en compte les résultats de la modélisation.

Extrait de notre livre blanc : Défis et progrès à l’ère des données et de l’intelligence artificielle