Si vous suivez régulièrement mes chroniques et notamment la dernière en date, vous comprendrez facilement que je suis entrain de développer de nouvelles compétences dans le domaine des data sciences grâce à cette formation passionnante qu’est le DSSP.
Quand j’ai commencé à parler de data voire même quand j’ai cherché à vendre des projets de datamarketing, la partie obscure n’était pas la rédaction du devis et de la proposition de valeur – quoi que ?!? notamment à la question ce que je vends sera t il rentable et le delivery à la hauteur… – mais plutôt ce qui allait se passer une fois le bon de commande signé. Ce que m’apporte cette formation c’est non seulement une meilleure compréhension de la proposition de valeur mais aussi et surtout de connaitre avec précision ce qu’il va se passer en mode projet.
C’est ce point que je souhaiterai partager aujourd’hui avec vous afin qu’il éclaire la même lanterne que moi :). Je rencontre régulièrement coté client – ou prestataire – des personnes qui parlent de « data » sans forcément savoir ou comprendre ce que cela couvre.
Alors concrètement un projet de « data » c’est quoi ?
Si nous partageons le postulat que ce type de projet doit permettre de tirer un savoir de la donnée afin par exemple d’optimiser un process, de mieux comprendre des comportements ou d’adresser de nouveaux besoins, alors nous pouvons décrire le cycle suivant :
1) La sélection et la collecte des données nécessaires à l’analyse. On comprend dès cette première étape la nécessité que le métier ait des questions concrètes à poser afin de savoir si ces données sont par exemple internes ou externes à l’entreprise, si elles doivent être enrichies, etc. Cette expression de besoin est bien entendue le résultat de workshops à réaliser en amont de ce cycle.
2) Le préprocessing est une étape essentielle, c’est un travail sur la qualité de la donnée. Cette étape consiste à supprimer les données redondantes, éliminer le bruit, compléter les champs absents ou vides, etc. cette première phase de « nettoyage » a pour objectif de préparer la donnée au traitement.
3) La normalisation aussi appelée standardisation ou transformation, recouvre une série d’opérations mathématiques/ statistiques consistant à « simplifier » le problème d’un point de vue « théorique ». Cette simplification porte par exemple sur la réduction des dimensions du problème, l’approximation de certaines valeurs, la comparaison de valeurs de nature très différente ou encore la considération du comportement de certains échantillons au regard de leur poids sur la population. Cette simplification peut avoir pour objectif de limiter le cout « informatique » du traitement de la donnée comme plus simplement celui de savoir quel type de traitement algorithmique lui appliquer. Cette simplification du problème demande aussi une connaissance du « métier » et des questions posées par le projet, pour savoir par exemple si une approximation ou la suppression d’une variable influence l’interprétation.
4) La phase d’apprentissage aussi appelée « machine learning » afin de tirer des règles de la donnée. Ces règles permettront de prédire une nouvelle valeur de sortie des fonctions définies en fonction de nouvelles données d’entrée.
5) La modélisation ou les modèles obtenus doivent être évalués sur la base de nouvelles données, il existe de nombreuses techniques d’évaluation de la robustesse du modèle afin d’en tirer en conclusion le savoir métier attendu.
6) La formalisation des interprétations en vue d’une exploitation métier. Cette formalisation peut se traduire par de la datavisualisation.
On voit que ces projets comportent une partie heuristique ou exploratoire importante, c’est de mon point de vue ce qui les rend passionnants.