Comme certainement de nombreux ingénieurs en informatique qui ont aujourd’hui une quinzaine d’années d’expérience en « digital », je vois venir la « data » comme une transformation naturelle de mon métier. De directeur internet ou directeur du digital à « Chief Data Officer » voire « datascientist » ou « consultant en data marketing », il n’y avait dans ma tête qu’un pas « intellectuel » à franchir que je me proposais d’étudier.
Réceptive à cette demande Keyrus – la société qui m’emploie – a proposé dans le cadre de la chaire signée avec Polytechnique de me frotter à ce sujet au Data Science Starter Program proposé à Polytechnique au sein d’un bouquet de formations continues.
Ce programme couvre toutes les compétences nécessaires à l’épanouissement d’un datascientist en entreprise. Très en amont, l’étude de la donnée pour la rendre « processable » par une architecture abordable en terme de coût, les différentes méthodes disponibles pour transformer cette donnée en information pour des applications business comme la prédiction – ce qui est par ailleurs le cas le plus étudié -, la compréhension des architectures techniques et applicatives pour anticiper les coûts « computationnels » à des fins de data processing, tout cela reposant évidemment sur des théories mathématiques et statistiques avancées.
Reprendre une formation certifiante après 15 années d’expérience n’est pas chose facile, d’abord parce qu’elle se déroule en complément d’une semaine de travail mais surtout parce qu’on se rend très vite compte que nous perdons la capacité à rester concentrés 8 heures derrière un bureau. Les concepts mathématiques et statistiques nous renvoient à nos études mais les expressions sont abordées de façon très pratiques, pour expliquer le fonctionnement de certains algorithmes. La palette des savoirs abordés requiert une gymnastique intellectuelle digne des meilleures joutes de nos longues soirées d’étudiants et on comprend très vite que le datascientist tel qu’il est défini par la littérature est un mythe. D’ailleurs la définition fournie par l’enseignement s’interprète différemment d’un exposé à l’autre.
Une définition semble toutefois remporter l’adhésion des différentes disciplines :
– le data designer : possédant une ou plusieurs compétences métiers permettant de trouver rapidement dans le traitement de la data des applications business,
– le data scientist manipulant les disciplines sur lesquelles reposent l’algorithmie comme la statistique,
– le data ingénieur dont les compétences sont plutôt orientées vers les architectures et les aspects computationnels du métier.
On comprend alors très vite qu’on n’atteindra jamais ce graal absolu, ce stade de l’évolution business suprême du « datascientist » mais que viser avec tout autant d’ambition le titre de datadesigner revêt un challenge nettement suffisant.
Pour « converger » rapidement comme on dit dans le milieu, il faut savoir quoi chercher, ou chercher, quel type d’information utiliser, comment la simplifier, comment la capter, etc. et le data designer est la pour ça.
Comprenant et manipulant une palette importante d’outils de datascience, il est capable en amont des projets de définir un cahier des charges en collaboration avec le métier ainsi que les indicateurs de performance, de vérifier la faisabilité du projet, de le dimensionner et d’en estimer le cout et le planning en mode proof of value. Sa palette est l’utilisation de R ou de python et les différents algorithmes de ces solutions pour jouer avec les échantillons de données mis à sa disposition par le métier. Sa compréhension de la donnée lui permettra un pré-processing efficace mais aussi la capacité de définir rapidement ce que l’on cherche voire ce qu’on peut attendre de ce type de démarche. Le pré-processing consiste au nettoyage et à la simplification de la donnée en gardant les bonnes variables à étudier. Il peut aller jusqu’à définir les algorithmes à appliquer pour répondre aux attentes du projet.
Dans le cadre de l’optimisation de ce POV voire dans celui de son industrialisation, les compétences du data ingénieur et du data scientist sont nécessaires.
J’ajouterai pour conclure que ce métier est un travail d’équipe où l’agilité est nécessaire, où l’échec et la persévérance sont des vertus plus nécessaires que jamais. Les perspectives que ces nouvelles compétences apportent tant à l’entreprise qu’à ses process sont galvanisantes.
Alors si c’était à faire ou à refaire, je dirai plutôt deux fois qu’une; les entreprises ont le devoir d’amener leurs salariés vers ces nouveaux savoir faire et nombreuses sont celles qui comme Keyrus s’y sont précipitées comprenant l’enjeu. Le digital ne se conçoit déjà plus aujourd’hui sans la data.