CONIX participe au DEP 2015

DEP 2015

DEP 2015

Les 26 et 27 novembre derniers, l’association ExQi (Excellence Qualité de l’information) a organisé le DEP 2015 (Data Excellence Paris) – 4ème édition – , un événement unique en France dédié à la Gouvernance, à la Gestion et à la Qualité des Données.

Cet événement a rassemblé une grande variété de participants du monde de l’Entreprise, du Conseil, de l’Edition et de la Recherche, dont CONIX.

Retour sur l’un des thèmes phares de cette édition DEP 2015 : la table ronde des Data Scientists, animée par Delphine Barrau et Laurent Faullimmel et qui fera l’objet d’une synthèse des échanges sur le site d’ExQi.
Les Data Scientists présents : D. Bachir (ENSIEE), S. Ben Hassine (Covéa), E. Fatni (CONIX), J.B. Rouquier (Dataiku), J.P. Malle (M8).

Eclairage sur ce métier avec Elkhader Fatni :

Pouvez-vous vous présenter ?

Bonjour, je m’appelle Elkhader Fatni. Je suis Data Scientist chez CONIX, une société de plus de 200 personnes qui accompagne les entreprises dans leur transformation et la maîtrise des risques.

J’interviens sur des projets orientés cas d’usages métier (fraude, désabonnement, hyperpersonnalisation…), souvent à travers des Datalabs, ou bien en « immersion ». Je contribue également au développement de l’offre Big Data de CONIX, notamment par la création d’un Datalab interne, sa promotion en participant à divers challenges de data science, de type Datathon.

Quelle définition donneriez-vous du métier de Data Scientist en une phrase ?

Je pense qu’un Data Scientist est une personne capable d’extraire, de combiner, d’analyser et de synthétiser des données massives dont la source, la nature et la fréquence de production sont variées. Finalement, il s’agit d’être capable d’exploiter « positivement » toutes les « connaissances » humaines.

Data Scientist, oui mais… et depuis quand ?

Le métier le plus « sexy » de ce début du 21ème siècle n’est certainement pas apparu du jour au lendemain. Je défends l’idée que le métier de Data Scientist résulte d’une part des progrès des technologies qui nous entourent et, d’autre part, de l’évolution d’un métier que l’on connait tous : le statisticien. En effet, les statisticiens ont longtemps été dévolus à l’analyse d’un certain type de données, que l’on retrouve principalement dans les systèmes de stockage traditionnels (bases de données).

Puis, les techniques de statistiques se sont perfectionnées donnant lieu à des profils capables de fournir une aide à la décision : la BI – Business Intelligence. Parallèlement, de nouvelles sources de données sont apparues avec le développement des sondages, par exemple, ou bien les formulaires en ligne. L’information à analyser n’est plus seulement numérique mais devient textuelle. De ce besoin est né le métier de Data Miner, personne capable d’extraire de la connaissance et de fouiller parmi les données. Ce profil s’est d’ailleurs renforcé avec la popularité des réseaux sociaux qui ont généré un véritable déluge de données non structurées.

Finalement, les géants du web perfectionnent leurs outils d’analyse, d’indexation… en prenant en compte la variété, le volume et la vélocité. Ces solutions se démocratisent et suscitent l’intérêt des entreprises qui se retrouvent avec des problématiques à forte valeur ajoutée, avec des masses de données internes mais aussi externes à leur SI, sans manuel d’utilisation. Le Data Scientist est là pour les guider.

DEP 2015- Elkhader Fatni

Que fait un Data Scientist en 2015 ?

J’interviens dans le cadre de l’offre Big Data de CONIX avec une approche orientée métiers. Je me positionne donc sur toute la chaîne d’un projet Big Data en commençant par aller à la rencontre des clients sous un angle très pédagogique quant à l’usage de la data science : je leur propose une solution selon un besoin métier, identifié ou non (fraude bancaire ou à l’assurance, hyperpersonnalisation de la relation clientèle….) avec des indices sur le ROI, je mets en avant la possibilité de constituer un datalab interne.

Dès cette étape, je débute un travail de recherche, d’extraction et de fouille de données par rapport au contexte. Dans les phases suivantes, j’effectue un long travail de prétraitement sur les données extraites puis je mets en œuvre des algorithmes de machine learning dans le but d’identifier les données corrélées. Enfin, après l’évaluation des modèles et la validation du métier, j’aborde la phase de visualisation des données qui me permettra de présenter les résultats devant le métier.

Selon le contexte, une phase d’industrialisation peut suivre, auquel cas j’interviens en tant qu’expert technique et m’assure du déploiement correct de la solution prototypée.

Avec quels outils ?

Chaque Data Scientist aura certainement ses préférences. Aussi, je distingue pour ma part deux mallettes à outils : l’une destinée à l’étape de prototypage et l’autre à l’industrialisation.

  • Prototypage : cette étape se veut courte (un à trois mois) et consiste à prouver la faisabilité et surtout le ROI potentiel d’une démarche prédictive. De ce fait, les outils manipulent souvent des jeux de données réduits et doivent être rapidement mis en place (via perl, python, scikit learn…).
  • Industrialisation : la démarche est validée, elle doit être généralisée à l’ensemble des données disponibles, sécurisée, déployable dans un environnement de production. En général, les outils Java sont à privilégier (Hadoop, Spark, etc.).

Un cadre méthodologique mûr ou encore jeune ?

Le métier de Data Scientist est récent et on peine encore à le définir. Difficile donc de parler de cadre méthodologique standard. J’ai cependant fait le choix des méthodes agiles car elles me semblent tout à fait adaptées aux projets de data science. Plus précisément, je travaille selon la méthodologie CRISP-DM (Cross Industry Standard Process for Data Miner) qui, comme son nom l’indique, est issue du data mining. Cette méthode propose des cycles basés sur la compréhension du métier, des données, leurs préparations puis leur modélisation…

Selon vous, quel est le parcours de formation le mieux adapté ?

Les formations de Data Scientist sont encore récentes, pourtant on trouve déjà des Data Scientists talentueux dans la nature ! En me fondant sur ma propre expérience, je m’aperçois que ma formation d’ingénieur m’a apporté un socle de connaissance indispensable en termes de rigueur scientifique, de connaissance de l’entreprise et de raisonnement éthique et social (en témoigne la charte d’éthique des ingénieurs). De plus, ma formation à dominante informatique m’a conforté dans l’usage des outils Big Data et me donne la capacité d’apprécier la nature des données, de comprendre leur production et de contribuer à leur interaction. Finalement, ma spécialisation de dernière année en « machine learning » et « data mining », ponctuée par un stage Big Data de fin d’étude, très enrichissant, m’a convaincu quant à mon avenir en tant que Data Scientist.

Il semble qu’aujourd’hui les DS soient principalement dans les grandes entreprises, au cœur de datalab ou de DSI. Cela vous semble-t-il représentatif ?

Il est vrai que l’on retrouve souvent ces acteurs dans les grandes entreprises, au cœur même de datalab. L’un des éléments de réponse réside dans le volume des données que ces grandes entreprises ont à offrir aujourd’hui. Pourtant, j’affirme que les Data Scientists ne sont pas réservés aux grandes entreprises. Et la raison en est simple : avec l’évolution des technologies et leur démocratisation, tous les domaines fonctionnels (banque, assurance, industrie, recherche, grande distribution…) sont concernés par l’effervescence des données et auront besoin de Data Scientists, qu’ils soient internes (création de poste) ou externes (cabinets de conseil).

Et demain… ?

Les discours mettant en avant l’or noir que constituent les données, le déluge des datas et autres métaphores poétiques laissent entrevoir l’importance du sujet dans les années à venir. Le véritable défi du Data Scientist sera sans doute de s’adapter à leur variété en combinant par exemple l’analyse des vidéos, images et sons. Plus encore, l’évolution de la technologie (processeur quantique, IoT, réalité augmentée…) suggère une infinité de nouveaux cas d’usage que les entreprises et les utilisateurs apprécieront certainement. Des frontières apparaissent cependant et des questions éthiques se posent (par exemple, Facebook a retiré son moteur de recherche sur les commentaires publics l’été dernier, redonnant ainsi le contrôle à ses utilisateurs quant à l’usage de leurs données).

En conclusion, la table ronde que nous animons aujourd’hui vise à définir un métier encore récent. Pourtant, de nouveaux métiers se profilent déjà à l’horizon : avez-vous entendu parler des Citizen Data Scientists ?


Autre thème abordé durant l’événement DEP 2015, la restitution du Groupe de Travail Big Data, avec la participation de S. Ben Hassine (Covéa), S. Corréa (Talend), D. Clément (Microsoft), K. El Idrissi (GrDF), X. Henderson (Air France – KLM), H. Husson (Conix) et D. Mariko (Information & Records Manager), sur les thèmes :

  • « Big Data – Self Healing Data Management »
  • « Comment mener un projet Big Data en tenant compte de la Data Quality ? », explications d’Hervé Husson, Cloud Practice Manager chez CONIX, via un retour d’expériences sur de vrais projets Big Data, analysés suivants 9 axes tendanciels : enjeux, politiques, organisations, métiers, processus, stratégies, architectures, réalisations et analyse de la valeur.

Eléments de réponse avec Hervé Husson :

Les projets Big Data, ça existe…

Le dernier sondage IDC-HP rapporte en effet que 56% des entreprises n’ont pas entamé d’initiative Big Data, tandis que 20% d’entre elles sont déjà dans une démarche d’évaluation de leur projet et 24% sont « en cours d’adoption » du Big Data. Si le succès semble encore mitigé, il convient de noter la progression de ce secteur dans le monde industriel.

L’objet de ce retour d’expérience présenté lors du DEP 2015 par CONIX est de montrer qu’il existe naturellement des projets Big Data au sein des entreprises, et particulièrement dans les secteurs d’activité du commerce, des transports, des services financiers et de l’énergie. Mais il s’agit également de montrer, aux travers de nos expériences, comment on peut mener un projet Big Data en tenant compte de la « data quality ».

DEP 2015 - Hervé Husson

Pour ce faire, notre étude s’est focalisée sur 9 axes dont voici les principales tendances qui se dégagent :

  • Axes Enjeux et Politiques : le Big Data constitue à l’unanimité un enjeu pour l’entreprise et traduit des ambitions fortes parmi lesquelles le pilotage de l’organisation, la connaissance des clients et prospects (grâce à la vision 360° du client), la sécurité et la prévention des fraudes mais aussi la data quality, qui est un véritable enjeu business. En effet, la donnée est au cœur de ces projets. Elle bénéficie donc de toute l’attention des acteurs métier et entraine, selon les différents cas d’usage mise en œuvre, différents schémas de prétraitements à l’origine de la data quality. On notera au passage les aspects politiques impliqués par ces prétraitements, notamment la conformité juridique et réglementaire.
  • Axes Organisations, Métiers et Processus : les organisations dédiées au Big Data sont généralement mixtes ; structure côté Métiers (exemples : commercial ou marketing) et structure côté DSI, orientée expertise technologique. A noter que les Data Scientists font souvent l’objet d’apports externes en sous-traitance. Le fameux CDO – Chief Data Officer – n’est pas encore une réalité dans toutes les organisations. Quant aux processus, la principale innovation réside dans la démarche de passage de l’expérimentation itérative à l’industrialisation.
  • Axes Stratégies, Architectures et Réalisations : la construction du SI est souvent guidée par une réflexion autour des cas d’usage. Elle se caractérise par la refonte des architectures BI classiques et met en avant des architectures Big Data de nature diverse. Lorsque les réalisations sont engagées (Proof of Concept, Proof of Value, prototype), des environnements Cloud sont privilégiés grâce à leur coût réduit et leur facilité de mise en œuvre notamment. La structure qui en découle est le « data lake », au-dessus duquel peut se greffer un datalab. La data quality n’est cependant pas un prérequis et les offres de type « DaaS » (Data as a Service) ne sont pas encore d’actualité…
  • Axe Analyse de la Valeur : s’il fallait retenir l’un des axes tendanciels de cette étude, c’est bien celui de la valeur qui émerge des initiatives Big Data. Nos retours d’expérience s’accordent sur l‘idée d’avoir pu trouver, grâce au projet Big Data, des réponses à des problématiques métiers jusqu’à présent non résolues. Plus encore, les projets liés à la donnée reposent sur une agilité accrue par le renforcement de la culture de l’expérimentation. Ce qui en ressort, c’est la capacité nouvelle qu’ont les entreprises à réaliser des analyses d’impact, leur maîtrise des données exposées, et la création de nouveaux services ou de nouvelles offres. Enfin, l’amélioration de la data quality est désormais quantifiable au cours du projet Big Data.

Le retour d’expérience que nous vous présentons est d’autant plus intéressant qu’il s’articule avec les conclusions de l’Observatoire de la Donnée CONIX, lancé récemment. La qualité des données est primordiale au sein d’une entreprise et les projets Big Data permettent finalement de mesurer la richesse de son patrimoine.


Pour plus d’informations, voici le support de la présentation. Et n’hésitez pas à contacter Hervé Husson.


Auteurs : Elkhader FATNI et Hervé HUSSON

Observatoire CONIX de la Donnée

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *