Archives du mot-clé data science

Projet Epidemium : CONIX récompensée dans la lutte contre le cancer

Projet ELSE

Le Projet Epidemium

Samedi 28 mai, se déroulait la finale du projet Epidemium, Challenge4Cancer, organisé par le laboratoire de recherche La Paillasse en partenariat avec les laboratoires Roche, et animé par le collectif Epidemium. Une soirée pleine d’émotions et de surprises pour l’équipe de CONIX qui participait au challenge.

Mais revenons 6 mois en arrière…

Dans le but d’innover et de faciliter les recherches scientifiques sur le cancer, les laboratoires Roche et La Paillasse lancent fin 2015 le projet Epidemium, programme de recherche scientifique participatif et ouvert dédié à la compréhension du cancer grâce aux Big Data. Il qui prend la forme d’un data challenge, Challenge4Cancer. 21 000 jeux de données ouvertes sont mis à disposition par les organisateurs.

25 équipes se lancent dans l’aventure, dont CONIX avec son projet ELSE (Evolutive Life Selection Experience). Il s’agit de créer une expérience interactive et sensibilisante, sous forme d’un « Serious Game » : dans la peau d’un personnage né en 2000, le joueur sera sensibilisé aux facteurs de risques liés aux cancers susceptibles de l’affecter, lui ou ses proches, en fonction des habitudes de vie.

ELSE combine un socle scientifique de traitement de données par des modèles prédictifs avec une application simple, type jeu de plateau. Réalisé en mode Agile avec 6 sprints de 3 semaines, la documentation du projet et la répartition des tâches ont été réalisées sous Trello (outil gratuit et visuel d’organisation de projet).

Ce projet a permis de rassembler au sein d’une même équipe les différentes compétences disponibles chez CONIX (architectes Big Data, développeurs, data scientists, data analystes, animateurs…) et de les mettre en œuvre sur tous les axes des BIG DATA (maîtrise d’ouvrage, maîtrise d’œuvre et développement, infrastructures, méthodologie projet).

La communication au sein de l’équipe projet (une vingtaine de personnes) a été assurée par le Réseau Social d’Entreprise de CONIX (Chatter de Salesforce).

Le cœur prédictif a été développé en Python à l’aide du notebook web Jupyter, toujours dans ce souci de travail d’équipe, en testant plusieurs modèles de régression issus de la librairie ScikitLearn. L’application a été développée avec les technologies web du moment : HTML5, jQuery et Bootstrap. Enfin, des tests sur un socle Hadoop, mis en place au sein de CONIX afin de répondre aux attentes de nos clients, ont permis de démontrer la robustesse de notre projet sur un périmètre plus large que la France (entrainant donc une volumétrie de données beaucoup plus conséquente).

Face à un jury exigeant composé d’un comité éthique et d’un comité scientifique auxquels participaient d’éminents spécialistes (dont notamment Cédric VILLANI, médaille Fields en Mathématiques), le projet ELSE s’est vu délivrer la mention spéciale « Originalité du Modèle » ainsi que le 3ème prix. Le chèque de 2000 € remis à CONIX pour ce prix par les Laboratoires Roche sera versé intégralement à la recherche contre le cancer.

Au delà de la grande satisfaction des prix et mentions décernés par le jury, ce challenge a aussi été l’occasion de confirmer la capacité de CONIX à assurer l’exécution d’un projet Big Data et Data Science sur toutes ses étapes et lui permet de renforcer ses retours d’expérience à partager avec ses clients.

Il reste néanmoins encore beaucoup de travail à réaliser pour consolider le modèle, assurer la portabilité de l’application vers des supports mobiles et surtout valider le scénario avec des collectifs d’association de malades, voire avec l’Education Nationale, pour porter le bon message auprès d’une population jeune, à sensibiliser aux facteurs de risques du cancer.

Revue de presse
Makery Info : Epidémium ouvre les mégadonnées du cancer
Roche.fr : Epidemium Challenge4Cancer : « And the winner is… Science ! »

Auteurs : Delphine BARRAU, Elkhader FATNI, Hervé HUSSON

Mise à jour (le 29/06/2016) : le projet ELSE est en ligne, à l’adresse http://www.conix.fr/epidemium/else.html

Data Agilité : Comment le big data devient agile !

En 2001, les initiatives historiques autour de l’agilité se fédèrent avec le Manifeste Agile, qui couvre désormais toutes les activités d’une organisation. L’agilité est devenue un mot clé plus seulement limité au périmètre des projets. C’est la solution idéale vers laquelle toute organisation s’oriente pour répondre aux enjeux et contextes à venir.

Parallèlement, l’apparition ces dernières années des big data et surtout la prise de conscience de leur potentiel a poussé les géants de l’informatique à mettre en œuvre des architectures de stockage assez complexes, massivement distribuées, capables d’engloutir des données toujours plus nombreuses et variées. Les entreprises traditionnelles de leur côté, se retrouvent devant une jungle d’outils estampillés big data, avec des problématiques qui leurs sont propres, mais sans aucune promesse de connaître un jour le succès des GAFAS et autres NATU (Netflix, Airbnb, Tesla, et Uber).

Dans un tel contexte, il devient crucial de savoir concilier deux besoins : d’une part, celui de disposer d’une architecture de données (moyens – technologies – logiciels – infrastructure, contenus, politique) robuste et, d’autre part, celui de répondre rapidement (le « juste à temps ») et de façon agile à des besoins métier (use case). Cet article propose une définition de la Data Agilité.

La Data Agilité, c’est répondre aux enjeux du Big Data, proposer une architecture robuste, c’est-à-dire vérifiant un ensemble de qualités telles que performance, sécurité, lisibilité, traçabilité et résilience. Pourtant, dans la réalité, la construction d’une telle infrastructure échappe souvent à la vigilance des entreprises. Certaines s’engouffrent dans une phase architecturale longue, quasi bureaucratique, au délai non adapté et aux lacunes variées. D’autres, au travers de projets dits novateurs, se retrouvent avec des architectures non pérennes se transformant en goulot d’étranglement, et au final le ROI n’est plus assuré.

Pire, une fois l’architecture aboutie, celle-ci devient non conciliante, car à la recherche de la norme absolue de représentation des données, niant ainsi la richesse des différents points de vue et des différentes maturités à considérer sur les données. Son contenu accuse alors un retard continu dans la prise en compte des évolutions, intrinsèques au contexte de toute entreprise. Finalement, la construction d’une telle architecture accumule les reproches que l’on retrouve dans des projets plus classiques de type datawarehouse d’entreprise.

Le projet est fragilisé : il s’appuie sur des données non maîtrisées, qui dégradent les fonctions visées. A terme, l’architecture finit par reconstituer des silos de données et aboutit à un stockage « dépotoir » avec le retour des problématiques de cohérence / écarts du fait de l’utilisation de données « non fiables  » ou non contrôlées.

Un récent sondage réalisé par le CRIP autour du Big Data annonce que 50% des CTO français estiment que l’un des principaux freins aux projets Big Data est l’insuffisance de compétences au sein des DSI. Pourtant, les compétences ne sont pas les seules à entrer en jeu : l’un des freins majeurs, selon nous, est le manque d’alignement entre la démarche agile et l’architecture de données sous-jacente aux projets Big data.

Premier point, la Data Agilité pose les briques essentielles d’un projet à succès car elle répond à une logique de capacités et non à un besoin précis : alimentation de données, représentations des données, fonctions d’exploitation de ces données, contrôle et gouvernance des données… Plus précisément, on cherche à mettre à disposition une architecture ayant la capacité à répondre à N besoins que l’on ne connait pas à l’avance. L’architecture est un cadre structuré facteur d’accélération, de préservation et de capitalisation des travaux antérieurs sur les données.

Deuxième point, cette capacité couverte par l’architecture de données relève d’une construction incrémentale alignée avec les projets. Cette démarche itérative sur le plan de l’architecture doit rejoindre celle que l’on retrouve dans un projet data science :

Data Agilité : Démarche de Data Science

  • Mise en place du socle – construction de l’architecture de données : cette première étape vise à initier la structure data agile en esquissant une vision macroscopique de la partie modélisation des données (à l’aide d’un modèle d’objet métier par exemple) et en chargeant les premiers jeux de données bruts sur une infrastructure de base. On privilégiera lors de cette étape des outils de stockage « ouvert » ou des solutions de data virtualisation, les scénarios variant bien sûr selon l’existant IT.
  • Itération X – «  réponses » agiles au use case data : la seconde phase vise quant à elle à développer l’architecture initiale selon les uses case data que l’on souhaitera aborder. La modélisation du macro-modèle pourra être détaillée, de nouvelles briques d’architecture ajoutées ou étendues…

Troisième point, l’architecture doit également accorder une autonomie vitale aux nouveaux acteurs et organisations data (CDO, data scientist, datalab, data manager…) en apportant d’une part le « juste à temps » grâce à sa rapidité de mise en œuvre et d’exploitation immédiate et, d’autre part une structuration / représentation des données à l’usage et non a priori. Le data shadow IT (excel, mail d’échanges de données…) coté métier est de son côté réintégré dans l’architecture et encadré par l’autonomie apportée. Enfin, l’intégration de nouveaux composants dès le premier incrément, renforce cet esprit d’agilité, de « juste à temps » et d’autonomie. On distinguera notamment une chaîne de composants support aux démarches agiles :

  • Les « ETL visuels » : venant compléter les ETL classiques (Extract-Transform-Load) dont la fonction initiale est l’extraction (avec des connecteurs par sources de données), la transformation de données (filtre, enrichissement, fusion, jointure de données) et la création / alimentation d’une nouvelle source (un dataset). La nouveauté de ces outils est la « programmation » visuelle et dynamique qu’ils apportent à ces différentes étapes ainsi que leur facilité à combiner différentes sources (de la simple jointure à la mise en œuvre d’algorithme avancé de matching), en plus d’intégrer des fonctions avancées de calcul ou de pré-traitement/préparation des données.
  • Les bacs à sable : qui constituent une solution de stockage « libre », dans un espace dédié, sans perturbation des stockages dits industriels. Plus généralement, un bac à sable est conçu comme un environnement non opérationnel où les analystes et les scientifiques de la donnée peuvent tester des idées, manipuler les données et le modèle sans imposer une charge de calcul excessive sur les processus opérationnels de base. Il a une espérance de vie limitée et les découvertes associées sont soit incorporées dans l’entrepôt de l’entreprise soit abandonnées.
  • Les stockages de type NoSQL, Hadoop… libérant des contraintes de structuration a priori, par leur implémentation de modèles à la volée. Leur vocation est de répondre à la problématique de stockage des données en étant non-relationnelle, distribuée (réplication élévée), open-source et horizontalement évolutives.
  • Le « self BI », les fonctions de data discovery : c’est-à-dire la capacité de construire une couche d’abstraction sur des données sources de façon dynamique, à l’aide notamment de fonctions de navigation dans les données. Cette approche libre-service permet aux utilisateurs finaux de créer des rapports personnalisés et des requêtes analytiques dans un cadre structuré permettant de concilier industrialisation et expérimentation.

Quatrième et dernier point, n’oublions par enfin que la Data agilité c’est également la reprise de méthodes de travail agiles, dont la pertinence n’est plus à démontrer. On retiendra notamment la possibilité qu’elles offrent en terme de maturation métier au fur et à mesure de la progression du projet, mais aussi la prise en compte des évolutions, naturelles au contexte des projets data.

Alliée au phénomène data, la Data Agilité propose un cadre de travail robuste qui convaincra tous les acteurs de la donnée.

Auteurs : Joël BIZINGRE et Elkhader FATNI

Observatoire CONIX de la Donnée

CONIX participe au DEP 2015

DEP 2015

DEP 2015

Les 26 et 27 novembre derniers, l’association ExQi (Excellence Qualité de l’information) a organisé le DEP 2015 (Data Excellence Paris) – 4ème édition – , un événement unique en France dédié à la Gouvernance, à la Gestion et à la Qualité des Données.

Cet événement a rassemblé une grande variété de participants du monde de l’Entreprise, du Conseil, de l’Edition et de la Recherche, dont CONIX.

Retour sur l’un des thèmes phares de cette édition DEP 2015 : la table ronde des Data Scientists, animée par Delphine Barrau et Laurent Faullimmel et qui fera l’objet d’une synthèse des échanges sur le site d’ExQi.
Les Data Scientists présents : D. Bachir (ENSIEE), S. Ben Hassine (Covéa), E. Fatni (CONIX), J.B. Rouquier (Dataiku), J.P. Malle (M8).

Eclairage sur ce métier avec Elkhader Fatni :

Pouvez-vous vous présenter ?

Bonjour, je m’appelle Elkhader Fatni. Je suis Data Scientist chez CONIX, une société de plus de 200 personnes qui accompagne les entreprises dans leur transformation et la maîtrise des risques.

J’interviens sur des projets orientés cas d’usages métier (fraude, désabonnement, hyperpersonnalisation…), souvent à travers des Datalabs, ou bien en « immersion ». Je contribue également au développement de l’offre Big Data de CONIX, notamment par la création d’un Datalab interne, sa promotion en participant à divers challenges de data science, de type Datathon.

Quelle définition donneriez-vous du métier de Data Scientist en une phrase ?

Je pense qu’un Data Scientist est une personne capable d’extraire, de combiner, d’analyser et de synthétiser des données massives dont la source, la nature et la fréquence de production sont variées. Finalement, il s’agit d’être capable d’exploiter « positivement » toutes les « connaissances » humaines.

Data Scientist, oui mais… et depuis quand ?

Le métier le plus « sexy » de ce début du 21ème siècle n’est certainement pas apparu du jour au lendemain. Je défends l’idée que le métier de Data Scientist résulte d’une part des progrès des technologies qui nous entourent et, d’autre part, de l’évolution d’un métier que l’on connait tous : le statisticien. En effet, les statisticiens ont longtemps été dévolus à l’analyse d’un certain type de données, que l’on retrouve principalement dans les systèmes de stockage traditionnels (bases de données).

Puis, les techniques de statistiques se sont perfectionnées donnant lieu à des profils capables de fournir une aide à la décision : la BI – Business Intelligence. Parallèlement, de nouvelles sources de données sont apparues avec le développement des sondages, par exemple, ou bien les formulaires en ligne. L’information à analyser n’est plus seulement numérique mais devient textuelle. De ce besoin est né le métier de Data Miner, personne capable d’extraire de la connaissance et de fouiller parmi les données. Ce profil s’est d’ailleurs renforcé avec la popularité des réseaux sociaux qui ont généré un véritable déluge de données non structurées.

Finalement, les géants du web perfectionnent leurs outils d’analyse, d’indexation… en prenant en compte la variété, le volume et la vélocité. Ces solutions se démocratisent et suscitent l’intérêt des entreprises qui se retrouvent avec des problématiques à forte valeur ajoutée, avec des masses de données internes mais aussi externes à leur SI, sans manuel d’utilisation. Le Data Scientist est là pour les guider.

DEP 2015- Elkhader Fatni

Que fait un Data Scientist en 2015 ?

J’interviens dans le cadre de l’offre Big Data de CONIX avec une approche orientée métiers. Je me positionne donc sur toute la chaîne d’un projet Big Data en commençant par aller à la rencontre des clients sous un angle très pédagogique quant à l’usage de la data science : je leur propose une solution selon un besoin métier, identifié ou non (fraude bancaire ou à l’assurance, hyperpersonnalisation de la relation clientèle….) avec des indices sur le ROI, je mets en avant la possibilité de constituer un datalab interne.

Dès cette étape, je débute un travail de recherche, d’extraction et de fouille de données par rapport au contexte. Dans les phases suivantes, j’effectue un long travail de prétraitement sur les données extraites puis je mets en œuvre des algorithmes de machine learning dans le but d’identifier les données corrélées. Enfin, après l’évaluation des modèles et la validation du métier, j’aborde la phase de visualisation des données qui me permettra de présenter les résultats devant le métier.

Selon le contexte, une phase d’industrialisation peut suivre, auquel cas j’interviens en tant qu’expert technique et m’assure du déploiement correct de la solution prototypée.

Avec quels outils ?

Chaque Data Scientist aura certainement ses préférences. Aussi, je distingue pour ma part deux mallettes à outils : l’une destinée à l’étape de prototypage et l’autre à l’industrialisation.

  • Prototypage : cette étape se veut courte (un à trois mois) et consiste à prouver la faisabilité et surtout le ROI potentiel d’une démarche prédictive. De ce fait, les outils manipulent souvent des jeux de données réduits et doivent être rapidement mis en place (via perl, python, scikit learn…).
  • Industrialisation : la démarche est validée, elle doit être généralisée à l’ensemble des données disponibles, sécurisée, déployable dans un environnement de production. En général, les outils Java sont à privilégier (Hadoop, Spark, etc.).

Un cadre méthodologique mûr ou encore jeune ?

Le métier de Data Scientist est récent et on peine encore à le définir. Difficile donc de parler de cadre méthodologique standard. J’ai cependant fait le choix des méthodes agiles car elles me semblent tout à fait adaptées aux projets de data science. Plus précisément, je travaille selon la méthodologie CRISP-DM (Cross Industry Standard Process for Data Miner) qui, comme son nom l’indique, est issue du data mining. Cette méthode propose des cycles basés sur la compréhension du métier, des données, leurs préparations puis leur modélisation…

Selon vous, quel est le parcours de formation le mieux adapté ?

Les formations de Data Scientist sont encore récentes, pourtant on trouve déjà des Data Scientists talentueux dans la nature ! En me fondant sur ma propre expérience, je m’aperçois que ma formation d’ingénieur m’a apporté un socle de connaissance indispensable en termes de rigueur scientifique, de connaissance de l’entreprise et de raisonnement éthique et social (en témoigne la charte d’éthique des ingénieurs). De plus, ma formation à dominante informatique m’a conforté dans l’usage des outils Big Data et me donne la capacité d’apprécier la nature des données, de comprendre leur production et de contribuer à leur interaction. Finalement, ma spécialisation de dernière année en « machine learning » et « data mining », ponctuée par un stage Big Data de fin d’étude, très enrichissant, m’a convaincu quant à mon avenir en tant que Data Scientist.

Il semble qu’aujourd’hui les DS soient principalement dans les grandes entreprises, au cœur de datalab ou de DSI. Cela vous semble-t-il représentatif ?

Il est vrai que l’on retrouve souvent ces acteurs dans les grandes entreprises, au cœur même de datalab. L’un des éléments de réponse réside dans le volume des données que ces grandes entreprises ont à offrir aujourd’hui. Pourtant, j’affirme que les Data Scientists ne sont pas réservés aux grandes entreprises. Et la raison en est simple : avec l’évolution des technologies et leur démocratisation, tous les domaines fonctionnels (banque, assurance, industrie, recherche, grande distribution…) sont concernés par l’effervescence des données et auront besoin de Data Scientists, qu’ils soient internes (création de poste) ou externes (cabinets de conseil).

Et demain… ?

Les discours mettant en avant l’or noir que constituent les données, le déluge des datas et autres métaphores poétiques laissent entrevoir l’importance du sujet dans les années à venir. Le véritable défi du Data Scientist sera sans doute de s’adapter à leur variété en combinant par exemple l’analyse des vidéos, images et sons. Plus encore, l’évolution de la technologie (processeur quantique, IoT, réalité augmentée…) suggère une infinité de nouveaux cas d’usage que les entreprises et les utilisateurs apprécieront certainement. Des frontières apparaissent cependant et des questions éthiques se posent (par exemple, Facebook a retiré son moteur de recherche sur les commentaires publics l’été dernier, redonnant ainsi le contrôle à ses utilisateurs quant à l’usage de leurs données).

En conclusion, la table ronde que nous animons aujourd’hui vise à définir un métier encore récent. Pourtant, de nouveaux métiers se profilent déjà à l’horizon : avez-vous entendu parler des Citizen Data Scientists ?


Autre thème abordé durant l’événement DEP 2015, la restitution du Groupe de Travail Big Data, avec la participation de S. Ben Hassine (Covéa), S. Corréa (Talend), D. Clément (Microsoft), K. El Idrissi (GrDF), X. Henderson (Air France – KLM), H. Husson (Conix) et D. Mariko (Information & Records Manager), sur les thèmes :

  • « Big Data – Self Healing Data Management »
  • « Comment mener un projet Big Data en tenant compte de la Data Quality ? », explications d’Hervé Husson, Cloud Practice Manager chez CONIX, via un retour d’expériences sur de vrais projets Big Data, analysés suivants 9 axes tendanciels : enjeux, politiques, organisations, métiers, processus, stratégies, architectures, réalisations et analyse de la valeur.

Eléments de réponse avec Hervé Husson :

Les projets Big Data, ça existe…

Le dernier sondage IDC-HP rapporte en effet que 56% des entreprises n’ont pas entamé d’initiative Big Data, tandis que 20% d’entre elles sont déjà dans une démarche d’évaluation de leur projet et 24% sont « en cours d’adoption » du Big Data. Si le succès semble encore mitigé, il convient de noter la progression de ce secteur dans le monde industriel.

L’objet de ce retour d’expérience présenté lors du DEP 2015 par CONIX est de montrer qu’il existe naturellement des projets Big Data au sein des entreprises, et particulièrement dans les secteurs d’activité du commerce, des transports, des services financiers et de l’énergie. Mais il s’agit également de montrer, aux travers de nos expériences, comment on peut mener un projet Big Data en tenant compte de la « data quality ».

DEP 2015 - Hervé Husson

Pour ce faire, notre étude s’est focalisée sur 9 axes dont voici les principales tendances qui se dégagent :

  • Axes Enjeux et Politiques : le Big Data constitue à l’unanimité un enjeu pour l’entreprise et traduit des ambitions fortes parmi lesquelles le pilotage de l’organisation, la connaissance des clients et prospects (grâce à la vision 360° du client), la sécurité et la prévention des fraudes mais aussi la data quality, qui est un véritable enjeu business. En effet, la donnée est au cœur de ces projets. Elle bénéficie donc de toute l’attention des acteurs métier et entraine, selon les différents cas d’usage mise en œuvre, différents schémas de prétraitements à l’origine de la data quality. On notera au passage les aspects politiques impliqués par ces prétraitements, notamment la conformité juridique et réglementaire.
  • Axes Organisations, Métiers et Processus : les organisations dédiées au Big Data sont généralement mixtes ; structure côté Métiers (exemples : commercial ou marketing) et structure côté DSI, orientée expertise technologique. A noter que les Data Scientists font souvent l’objet d’apports externes en sous-traitance. Le fameux CDO – Chief Data Officer – n’est pas encore une réalité dans toutes les organisations. Quant aux processus, la principale innovation réside dans la démarche de passage de l’expérimentation itérative à l’industrialisation.
  • Axes Stratégies, Architectures et Réalisations : la construction du SI est souvent guidée par une réflexion autour des cas d’usage. Elle se caractérise par la refonte des architectures BI classiques et met en avant des architectures Big Data de nature diverse. Lorsque les réalisations sont engagées (Proof of Concept, Proof of Value, prototype), des environnements Cloud sont privilégiés grâce à leur coût réduit et leur facilité de mise en œuvre notamment. La structure qui en découle est le « data lake », au-dessus duquel peut se greffer un datalab. La data quality n’est cependant pas un prérequis et les offres de type « DaaS » (Data as a Service) ne sont pas encore d’actualité…
  • Axe Analyse de la Valeur : s’il fallait retenir l’un des axes tendanciels de cette étude, c’est bien celui de la valeur qui émerge des initiatives Big Data. Nos retours d’expérience s’accordent sur l‘idée d’avoir pu trouver, grâce au projet Big Data, des réponses à des problématiques métiers jusqu’à présent non résolues. Plus encore, les projets liés à la donnée reposent sur une agilité accrue par le renforcement de la culture de l’expérimentation. Ce qui en ressort, c’est la capacité nouvelle qu’ont les entreprises à réaliser des analyses d’impact, leur maîtrise des données exposées, et la création de nouveaux services ou de nouvelles offres. Enfin, l’amélioration de la data quality est désormais quantifiable au cours du projet Big Data.

Le retour d’expérience que nous vous présentons est d’autant plus intéressant qu’il s’articule avec les conclusions de l’Observatoire de la Donnée CONIX, lancé récemment. La qualité des données est primordiale au sein d’une entreprise et les projets Big Data permettent finalement de mesurer la richesse de son patrimoine.


Pour plus d’informations, voici le support de la présentation. Et n’hésitez pas à contacter Hervé Husson.


Auteurs : Elkhader FATNI et Hervé HUSSON

Observatoire CONIX de la Donnée

Data Scientist : petit super-héros deviendra grand

Data scientist hero

Data scientist, un nouveau métier ?

Que pensez-vous de l’affirmation suivante : « le data scientist n’est pas un nouveau métier, on l’appelle mathématicien dans les universités, scientifique à la NASA, statisticien à l’INSEE, actuaire dans l’Assurance, quant à la Banque » ?

Beaucoup ne veulent pas entendre dire que le data scientist est le nouveau nom du statisticien (ou de l’actuaire…) et je suis d’accord même si j’ai rencontré des statisticiens « nouvelle génération », très habiles avec les technologies et les langages Big Data et tout à fait aptes à devenir des data scientists, si leur passion de la statistique se transforme en passion de la compréhension du monde.

Car ce qui fait la nouveauté de ce métier ce sont les volumes, les outils mais également les données manipulées et leur diversité : demandez à un quant de faire des analyses de sentiments sur Twitter !

Le data scientist est un hybride entre un mathématicien, un statisticien, un développeur, un « business analyst » et un communicant. C’est un super héros mais pas pour autant un magicien ! Il gère des mégadonnées de natures diverses tout en passant de la culture de l’échantillon à la culture de l’ensemble et s’intéresse viscéralement au métier sur lequel portent ses analyses.

Je défends l’idée que le data scientist est né de la rencontre d’un (ou d’une) scientifique passionné par les données avec une révolution technologique qui ouvre toutes les portes du possible.

Que pourra faire pour vous un data scientist ?

Maintenant que la connaissance des données est un axe fort pour tous les secteurs d’activités, que les gros volumes de données structurées ou non sont monnaies courantes dans les entreprises et que les technologies Big Data se sont démocratisées, toutes les entreprises peuvent prétendre à employer une équipe de data scientists. Et ce métier trouve son application partout : banque, assurance, mutuelle, marketing, énergie, grande distribution, industrie pharmaceutique, secteur public… et même politique (cf l’article Gouvernement des algorithmes sur le Blog d’Henri Verdier, administrateur général des données de l’Etat).

Le data scientist mène des projets Big Data. Il peut s’agir de projets destinés à clarifier les données de l’entreprise (classification, vision 360…), expliquer des phénomènes ou des comportements (désabonnement, fraude…) ou, tout simplement, s’atteler à découvrir les moyens d’améliorer les produits ou les services offerts par l’entreprise.

Vous avez peut-être déjà lu la définition imagée proposée par Monica ROGATI (Linkedin) : le data scientist « est la rencontre de Christophe Colomb et de l’inspecteur Colombo : les yeux éclairés d’un explorateur et la perspicacité d’un détective ».

Le data scientist cherche à comprendre le métier dans lequel il évolue. Puis à comprendre les données, en les préparant, les explorant et les recoupant avec plusieurs sources, internes mais également externes qu’il doit trouver. Enfin il les analyse et leurs applique des modèles prédictifs puis évalue et effectue des recommandations pour améliorer l’objet de son étude.

Quelles sont les compétences d’un data scientist ?

Un data scientist doit avoir une forte appétence pour les données, tout autant que pour les technologies, les langages et les outils informatiques, maîtriser les techniques d’analyse de données et les méthodologies statistiques. Mais il doit aussi être expert dans la compréhension et l’interprétation des données et détenir un bon savoir-faire dans le secteur d’application des données analysées.

Son éthique – voire quelques compétences juridiques – lui permettront d’éviter un usage « extrême » des données manipulées tandis que son savoir rhétorique mettra en lumière les résultats de son analyse.

Il existe deux types de profil aujourd’hui sur le marché : d’une part, de jeunes data scientists fraichement sortis d’écoles, curieux, imaginatifs et très pointus dans les nouvelles technologies sans avoir réellement beaucoup manipulé, sauf peut-être pour les plus passionnés qui « jouent » sur des plates-formes mondiales de data science (cf. Kaggle ou datascience). Et d’autre part, des « reconvertis » plus séniors qui, passionnés par la data depuis déjà des années, ont évolué, en autodidacte ou en suivant des cursus spécialisés, vers le métier de data scientist. Ils sont (parfois) moins experts en nouvelles technologies mais ont plus de recul sur l’écosystème de la donnée (gouvernance, qualité, architecture, accessibilité..), la conduite de projet et les ficelles de la « business analyse ».

Comment le recruter et le garder ?

Ne cherchez pas pour autant le mouton à 17 pattes ! Votre besoin dépendra de votre ambition et votre maturité dans vos projets Big Data. Un jeune data scientist mal accompagné peinera à comprendre les données de l’entreprise et donc à les analyser, tandis qu’un data scientist en chef aura moins d’appétence à programmer mais saura mieux gérer le portefeuille de besoins.

Je conseille d’embaucher un data scientist junior pour intégrer une équipe ou de recruter un data scientist en chef pour piloter une équipe.

Les formations n’ont pas encore atteint une forte maturité. Depuis la rentrée 2014, certaines écoles d’ingénieurs proposent des masters 2 ou masters spécialisés en data science (par exemple Polytechnique et Telecom Paris) ou ont adapté leur cursus existant (notamment des écoles de statistiques comme l’ENSAE, l’ENSAI, Paris Tech, Polytech Lille). Il existe aussi des certificats ou formation diplomantes professionnelles (cf CEPE ou MBA).

Le data scientist se recrute sur linkedin, Viadéo et autres sites (mais il faut connaitre les bons mots-clés) ou, en prestation, dans des cabinets de conseils spécialisés en Data Science (encore assez rares), en Transformation digitale ou en Innovation.

En plus d’être souvent jeune et pointu, le ou la data scientist (car c’est un métier assez féminin) pourrait avoir la grosse tête à force d’entendre qu’il fait « le métier le plus sexy du monde » et qu’il est très recherché. Alors comment manager « une star » et tout mettre en œuvre pour le retenir quand, enfin, vous avez réussi à trouver la perle rare ?

Il emploie un vocabulaire que vous ne maîtrisez pas : il parle de données labellisées, enrichies, d’apprentissage supervisé, de clustering, d’analyses prédictives, de régresseurs, classifieurs, data visualisation… Mais il parle aussi et avant tout usages et sens métier.

Il faut savoir satisfaire sa curiosité, sa soif de découverte, veiller à ce qu’il ne s’ennuie jamais et lui laisser suffisamment d’autonomie pour qu’il laisse parler les données. Rien n’est plus frustrant pour un data scientist que de ne pas faire de data Science surtout quand il lit chaque jour dans la presse qu’il en manque partout. Evaluez-le par les résultats, donnez lui du grain à moudre et les moyens pour le moudre.

C’est un curieux, un passionné qui a envie de partager sa passion. Ne l’isolez pas, ce n’est pas un « geek » à laisser derrière un PC. C’est un collaborateur qui partagera ses analyses au travers de visualisation parlantes et adaptées à son audience.

Où positionner un data scientist dans l’organisation ?

Il occupe des postes et des compétences à grande transversalité dans l’entreprise car il collabore autant avec des informaticiens que des experts métiers, et s’adresse aussi bien à la maîtrise d’œuvre pour accéder aux données, qu’au top management, pour exposer ses résultats. Il peut donc être positionné partout. Tout est ensuite un choix de stratégie interne.

DSI, Direction marketing, DAF ? La question sera plutôt « qui manage les projets Big Data dans l’entreprise ? » Et là sera bien positionné le data scientist.

L’intérêt de l’intégrer dans une DSI ou, mieux encore, dans une structure dédiée à l’innovation est d’utiliser ses compétences pour plusieurs métiers et ne pas le limiter à un silo de l’organisation.

Pour conclure, en deux avis très personnels,

Le data scientist est effectivement une ressource rare dont la pénurie risque d’augmenter avec les besoins croissants mais le potentiel de développement est important en France (il suffit de voir le palmarès de ces fameuses plates-formes mondiales de data science). Sachez identifier les collaborateurs prêts à franchir le pas et proposez-leur une évolution vers ce métier. N’hésitez pas à vous faire accompagner ou à mener des partenariats avec des structures qui ont ces compétences.

Enfin il me semble évident que rien ne sert d’avoir une superbe infrastructure et une armée de data scientists si vous ne savez que faire de vos données et comment y accéder. Commencez humblement, construisez un bac à sable et/ou un laboratoire (datalab), puis laissez parler vos données et s’épanouir vos data scientists. Les grandes révolutions viendront ensuite (presque) d’elles-mêmes !

data scientist - Observatoire CONIX de la Donnée

Auteur : Delphine BARRAU – Illustration © yuryimaging – Fotolia.com

Une nouvelle expérience Data Science pour CONIX : allier talents et gouvernance

Une nouvelle expérience Data Science pour CONIX : Allier talents et gouvernance

Si notre réussite honorable au challenge AXA nous a permis de tirer de premiers enseignements concrets sur le profil du Data Scientist, notre accompagnement d’un grand client de l’Energie confirme la nécessaire combinaison de la data science et de la gouvernance.

Le projet

La construction de ce projet d’analyse de données réunit des éléments de BIG DATA (plusieurs millions de données), de DATAVIZ (restitution visuelle pour l’aide à la décision) et d’OPEN DATA (des données internes enrichies par des données externes puis ouvertes au sein d’une communauté d’intérêt).

Il se découpe en quatre phases rejouées périodiquement :

  • Capter la donnée de manière automatique ;
  • Mettre en qualité cette donnée et l’enrichir avec des données externes issues entre autres de l’INSEE (population) ;
  • Analyser cette donnée en mettant en œuvre des algorithmes mathématiques évolués (dans notre cas des modèles combinatoires sous contraintes) ;
  • Restituer l’information d’une manière visuelle et graphique pour aider à la décision.

La confirmation des premières convictions

La réalisation en quelques jours d’une maquette pour ce projet en utilisant les outils disponibles au « laboratoire de données » nous a confortés dans nos convictions.

La création d’un laboratoire de données outillé même en mode « bac à sable » permet de monter rapidement des solutions opérationnelles répondant à des besoins métiers.

Si toutes les organisations ne disposent pas d’un super héros en data science, la combinaison des talents est un bon compromis : celui (ou celle) qui connait les données, leurs valeurs et leurs sens, celui qui manipule les données et interviendra dans les phases amont de préparation, de croisement, d’enrichissement et de mise en qualité des données, celui qui met en œuvre le moteur d’analyse des données et enfin celui qui travaille le design de l’outil final afin de fournir un outil visuellement parlant et représentatif pour le métier.

L’existence d’un laboratoire ouvert, de compétences en place et l’utilisation des outils libres (tels que R Studio ou HUE) ou le recours aux solutions de startups montantes permettent également de réduire les coûts de mise en œuvre.

Un laboratoire efficace

Mais si ces composants sont nécessaires pour conduire un projet, les clés de la réussite d’un laboratoire ne se limitent pas à des outils et des talents, ne serait-ce que pour répondre à quelques questions élémentaires :

  • Comment capter les cas d’usages ?
  • Comment dimensionner son laboratoire pour être en mesure de répondre à toutes les demandes ?
  • Comment industrialiser le résultat d’un POC sans perdre des mois ?
  • Comment piloter et manager une équipe aux talents aussi divers ?
  • Etc …

La réussite d’un laboratoire c’est aussi et peut-être avant tout une gouvernance maitrisée, des process définis, une animation continue, un bon staffing, sans oublier une rotation des compétences pour éviter les dérives :

  • Mettre en place un catalogue piloté des questions métiers soumises (via un réseau informel de correspondants, une communication interne ou externe, une écoute permanente, des suggestions DSI…) pour capter les besoins.
  • S’appuyer sur un comité de coordination des données pour sélectionner et prioriser les usages en fonction des données disponibles ou de leur coût d’extraction, de leur niveau de qualité par rapport à l’usage souhaité et du retour sur investissement (est-on dans une étude « One Shot », ex : adaptation d’offres, ou dans un maquettage avant industrialisation, ex : moteur de maintenance prédictive ?). (Savoir abandonner)
  • Assurer un pilotage transverse pour connaitre les données de l’entreprise (sensibilité, valeur, qualité), filtrer les données utiles et riches de sens et faciliter la création de nouveaux usages. (« In God we trust. All others must bring data » Deming)
  • Penser architecture transverse pour répondre notamment aux questions autour de l’architecture des données et du Cloud (autant pour le stockage des données que pour les capacités de calcul) et pour pérenniser les solutions opérationnelles. (Oser et Innover)
  • Enfin, manager les talents pour organiser et animer la pluralité des compétences, avec une bonne vision de l’état de l’art et le recours à des formations qui préparent de façon opérationnelle à la data science, telles que celle du centre de formation continue de l’ENSAE (Certificat « Data Science »).

CONIX vous accompagne

En conclusion, pour garantir la réussite des projets dans un laboratoire de données, ce dernier doit porter une offre complète.

Par nos expériences passées en conduite de projets et gestion des données, notre connaissance intime des métiers de ses clients, notre implication et notre compétence en terme d’innovation digitale et depuis peu notre investissement dans la datascience, nous sommes aujourd’hui en mesure de vous accompagner dans la mise en œuvre efficiente de votre laboratoire de données.

laboratoire - Observatoire CONIX de la Donnée

Auteur : Delphine Barrau