Archives du mot-clé observatoire

CONIX participe au DEP 2015

DEP 2015

DEP 2015

Les 26 et 27 novembre derniers, l’association ExQi (Excellence Qualité de l’information) a organisé le DEP 2015 (Data Excellence Paris) – 4ème édition – , un événement unique en France dédié à la Gouvernance, à la Gestion et à la Qualité des Données.

Cet événement a rassemblé une grande variété de participants du monde de l’Entreprise, du Conseil, de l’Edition et de la Recherche, dont CONIX.

Retour sur l’un des thèmes phares de cette édition DEP 2015 : la table ronde des Data Scientists, animée par Delphine Barrau et Laurent Faullimmel et qui fera l’objet d’une synthèse des échanges sur le site d’ExQi.
Les Data Scientists présents : D. Bachir (ENSIEE), S. Ben Hassine (Covéa), E. Fatni (CONIX), J.B. Rouquier (Dataiku), J.P. Malle (M8).

Eclairage sur ce métier avec Elkhader Fatni :

Pouvez-vous vous présenter ?

Bonjour, je m’appelle Elkhader Fatni. Je suis Data Scientist chez CONIX, une société de plus de 200 personnes qui accompagne les entreprises dans leur transformation et la maîtrise des risques.

J’interviens sur des projets orientés cas d’usages métier (fraude, désabonnement, hyperpersonnalisation…), souvent à travers des Datalabs, ou bien en « immersion ». Je contribue également au développement de l’offre Big Data de CONIX, notamment par la création d’un Datalab interne, sa promotion en participant à divers challenges de data science, de type Datathon.

Quelle définition donneriez-vous du métier de Data Scientist en une phrase ?

Je pense qu’un Data Scientist est une personne capable d’extraire, de combiner, d’analyser et de synthétiser des données massives dont la source, la nature et la fréquence de production sont variées. Finalement, il s’agit d’être capable d’exploiter « positivement » toutes les « connaissances » humaines.

Data Scientist, oui mais… et depuis quand ?

Le métier le plus « sexy » de ce début du 21ème siècle n’est certainement pas apparu du jour au lendemain. Je défends l’idée que le métier de Data Scientist résulte d’une part des progrès des technologies qui nous entourent et, d’autre part, de l’évolution d’un métier que l’on connait tous : le statisticien. En effet, les statisticiens ont longtemps été dévolus à l’analyse d’un certain type de données, que l’on retrouve principalement dans les systèmes de stockage traditionnels (bases de données).

Puis, les techniques de statistiques se sont perfectionnées donnant lieu à des profils capables de fournir une aide à la décision : la BI – Business Intelligence. Parallèlement, de nouvelles sources de données sont apparues avec le développement des sondages, par exemple, ou bien les formulaires en ligne. L’information à analyser n’est plus seulement numérique mais devient textuelle. De ce besoin est né le métier de Data Miner, personne capable d’extraire de la connaissance et de fouiller parmi les données. Ce profil s’est d’ailleurs renforcé avec la popularité des réseaux sociaux qui ont généré un véritable déluge de données non structurées.

Finalement, les géants du web perfectionnent leurs outils d’analyse, d’indexation… en prenant en compte la variété, le volume et la vélocité. Ces solutions se démocratisent et suscitent l’intérêt des entreprises qui se retrouvent avec des problématiques à forte valeur ajoutée, avec des masses de données internes mais aussi externes à leur SI, sans manuel d’utilisation. Le Data Scientist est là pour les guider.

DEP 2015- Elkhader Fatni

Que fait un Data Scientist en 2015 ?

J’interviens dans le cadre de l’offre Big Data de CONIX avec une approche orientée métiers. Je me positionne donc sur toute la chaîne d’un projet Big Data en commençant par aller à la rencontre des clients sous un angle très pédagogique quant à l’usage de la data science : je leur propose une solution selon un besoin métier, identifié ou non (fraude bancaire ou à l’assurance, hyperpersonnalisation de la relation clientèle….) avec des indices sur le ROI, je mets en avant la possibilité de constituer un datalab interne.

Dès cette étape, je débute un travail de recherche, d’extraction et de fouille de données par rapport au contexte. Dans les phases suivantes, j’effectue un long travail de prétraitement sur les données extraites puis je mets en œuvre des algorithmes de machine learning dans le but d’identifier les données corrélées. Enfin, après l’évaluation des modèles et la validation du métier, j’aborde la phase de visualisation des données qui me permettra de présenter les résultats devant le métier.

Selon le contexte, une phase d’industrialisation peut suivre, auquel cas j’interviens en tant qu’expert technique et m’assure du déploiement correct de la solution prototypée.

Avec quels outils ?

Chaque Data Scientist aura certainement ses préférences. Aussi, je distingue pour ma part deux mallettes à outils : l’une destinée à l’étape de prototypage et l’autre à l’industrialisation.

  • Prototypage : cette étape se veut courte (un à trois mois) et consiste à prouver la faisabilité et surtout le ROI potentiel d’une démarche prédictive. De ce fait, les outils manipulent souvent des jeux de données réduits et doivent être rapidement mis en place (via perl, python, scikit learn…).
  • Industrialisation : la démarche est validée, elle doit être généralisée à l’ensemble des données disponibles, sécurisée, déployable dans un environnement de production. En général, les outils Java sont à privilégier (Hadoop, Spark, etc.).

Un cadre méthodologique mûr ou encore jeune ?

Le métier de Data Scientist est récent et on peine encore à le définir. Difficile donc de parler de cadre méthodologique standard. J’ai cependant fait le choix des méthodes agiles car elles me semblent tout à fait adaptées aux projets de data science. Plus précisément, je travaille selon la méthodologie CRISP-DM (Cross Industry Standard Process for Data Miner) qui, comme son nom l’indique, est issue du data mining. Cette méthode propose des cycles basés sur la compréhension du métier, des données, leurs préparations puis leur modélisation…

Selon vous, quel est le parcours de formation le mieux adapté ?

Les formations de Data Scientist sont encore récentes, pourtant on trouve déjà des Data Scientists talentueux dans la nature ! En me fondant sur ma propre expérience, je m’aperçois que ma formation d’ingénieur m’a apporté un socle de connaissance indispensable en termes de rigueur scientifique, de connaissance de l’entreprise et de raisonnement éthique et social (en témoigne la charte d’éthique des ingénieurs). De plus, ma formation à dominante informatique m’a conforté dans l’usage des outils Big Data et me donne la capacité d’apprécier la nature des données, de comprendre leur production et de contribuer à leur interaction. Finalement, ma spécialisation de dernière année en « machine learning » et « data mining », ponctuée par un stage Big Data de fin d’étude, très enrichissant, m’a convaincu quant à mon avenir en tant que Data Scientist.

Il semble qu’aujourd’hui les DS soient principalement dans les grandes entreprises, au cœur de datalab ou de DSI. Cela vous semble-t-il représentatif ?

Il est vrai que l’on retrouve souvent ces acteurs dans les grandes entreprises, au cœur même de datalab. L’un des éléments de réponse réside dans le volume des données que ces grandes entreprises ont à offrir aujourd’hui. Pourtant, j’affirme que les Data Scientists ne sont pas réservés aux grandes entreprises. Et la raison en est simple : avec l’évolution des technologies et leur démocratisation, tous les domaines fonctionnels (banque, assurance, industrie, recherche, grande distribution…) sont concernés par l’effervescence des données et auront besoin de Data Scientists, qu’ils soient internes (création de poste) ou externes (cabinets de conseil).

Et demain… ?

Les discours mettant en avant l’or noir que constituent les données, le déluge des datas et autres métaphores poétiques laissent entrevoir l’importance du sujet dans les années à venir. Le véritable défi du Data Scientist sera sans doute de s’adapter à leur variété en combinant par exemple l’analyse des vidéos, images et sons. Plus encore, l’évolution de la technologie (processeur quantique, IoT, réalité augmentée…) suggère une infinité de nouveaux cas d’usage que les entreprises et les utilisateurs apprécieront certainement. Des frontières apparaissent cependant et des questions éthiques se posent (par exemple, Facebook a retiré son moteur de recherche sur les commentaires publics l’été dernier, redonnant ainsi le contrôle à ses utilisateurs quant à l’usage de leurs données).

En conclusion, la table ronde que nous animons aujourd’hui vise à définir un métier encore récent. Pourtant, de nouveaux métiers se profilent déjà à l’horizon : avez-vous entendu parler des Citizen Data Scientists ?


Autre thème abordé durant l’événement DEP 2015, la restitution du Groupe de Travail Big Data, avec la participation de S. Ben Hassine (Covéa), S. Corréa (Talend), D. Clément (Microsoft), K. El Idrissi (GrDF), X. Henderson (Air France – KLM), H. Husson (Conix) et D. Mariko (Information & Records Manager), sur les thèmes :

  • « Big Data – Self Healing Data Management »
  • « Comment mener un projet Big Data en tenant compte de la Data Quality ? », explications d’Hervé Husson, Cloud Practice Manager chez CONIX, via un retour d’expériences sur de vrais projets Big Data, analysés suivants 9 axes tendanciels : enjeux, politiques, organisations, métiers, processus, stratégies, architectures, réalisations et analyse de la valeur.

Eléments de réponse avec Hervé Husson :

Les projets Big Data, ça existe…

Le dernier sondage IDC-HP rapporte en effet que 56% des entreprises n’ont pas entamé d’initiative Big Data, tandis que 20% d’entre elles sont déjà dans une démarche d’évaluation de leur projet et 24% sont « en cours d’adoption » du Big Data. Si le succès semble encore mitigé, il convient de noter la progression de ce secteur dans le monde industriel.

L’objet de ce retour d’expérience présenté lors du DEP 2015 par CONIX est de montrer qu’il existe naturellement des projets Big Data au sein des entreprises, et particulièrement dans les secteurs d’activité du commerce, des transports, des services financiers et de l’énergie. Mais il s’agit également de montrer, aux travers de nos expériences, comment on peut mener un projet Big Data en tenant compte de la « data quality ».

DEP 2015 - Hervé Husson

Pour ce faire, notre étude s’est focalisée sur 9 axes dont voici les principales tendances qui se dégagent :

  • Axes Enjeux et Politiques : le Big Data constitue à l’unanimité un enjeu pour l’entreprise et traduit des ambitions fortes parmi lesquelles le pilotage de l’organisation, la connaissance des clients et prospects (grâce à la vision 360° du client), la sécurité et la prévention des fraudes mais aussi la data quality, qui est un véritable enjeu business. En effet, la donnée est au cœur de ces projets. Elle bénéficie donc de toute l’attention des acteurs métier et entraine, selon les différents cas d’usage mise en œuvre, différents schémas de prétraitements à l’origine de la data quality. On notera au passage les aspects politiques impliqués par ces prétraitements, notamment la conformité juridique et réglementaire.
  • Axes Organisations, Métiers et Processus : les organisations dédiées au Big Data sont généralement mixtes ; structure côté Métiers (exemples : commercial ou marketing) et structure côté DSI, orientée expertise technologique. A noter que les Data Scientists font souvent l’objet d’apports externes en sous-traitance. Le fameux CDO – Chief Data Officer – n’est pas encore une réalité dans toutes les organisations. Quant aux processus, la principale innovation réside dans la démarche de passage de l’expérimentation itérative à l’industrialisation.
  • Axes Stratégies, Architectures et Réalisations : la construction du SI est souvent guidée par une réflexion autour des cas d’usage. Elle se caractérise par la refonte des architectures BI classiques et met en avant des architectures Big Data de nature diverse. Lorsque les réalisations sont engagées (Proof of Concept, Proof of Value, prototype), des environnements Cloud sont privilégiés grâce à leur coût réduit et leur facilité de mise en œuvre notamment. La structure qui en découle est le « data lake », au-dessus duquel peut se greffer un datalab. La data quality n’est cependant pas un prérequis et les offres de type « DaaS » (Data as a Service) ne sont pas encore d’actualité…
  • Axe Analyse de la Valeur : s’il fallait retenir l’un des axes tendanciels de cette étude, c’est bien celui de la valeur qui émerge des initiatives Big Data. Nos retours d’expérience s’accordent sur l‘idée d’avoir pu trouver, grâce au projet Big Data, des réponses à des problématiques métiers jusqu’à présent non résolues. Plus encore, les projets liés à la donnée reposent sur une agilité accrue par le renforcement de la culture de l’expérimentation. Ce qui en ressort, c’est la capacité nouvelle qu’ont les entreprises à réaliser des analyses d’impact, leur maîtrise des données exposées, et la création de nouveaux services ou de nouvelles offres. Enfin, l’amélioration de la data quality est désormais quantifiable au cours du projet Big Data.

Le retour d’expérience que nous vous présentons est d’autant plus intéressant qu’il s’articule avec les conclusions de l’Observatoire de la Donnée CONIX, lancé récemment. La qualité des données est primordiale au sein d’une entreprise et les projets Big Data permettent finalement de mesurer la richesse de son patrimoine.


Pour plus d’informations, voici le support de la présentation. Et n’hésitez pas à contacter Hervé Husson.


Auteurs : Elkhader FATNI et Hervé HUSSON

Observatoire CONIX de la Donnée

Data Scientist : petit super-héros deviendra grand

Data scientist hero

Data scientist, un nouveau métier ?

Que pensez-vous de l’affirmation suivante : « le data scientist n’est pas un nouveau métier, on l’appelle mathématicien dans les universités, scientifique à la NASA, statisticien à l’INSEE, actuaire dans l’Assurance, quant à la Banque » ?

Beaucoup ne veulent pas entendre dire que le data scientist est le nouveau nom du statisticien (ou de l’actuaire…) et je suis d’accord même si j’ai rencontré des statisticiens « nouvelle génération », très habiles avec les technologies et les langages Big Data et tout à fait aptes à devenir des data scientists, si leur passion de la statistique se transforme en passion de la compréhension du monde.

Car ce qui fait la nouveauté de ce métier ce sont les volumes, les outils mais également les données manipulées et leur diversité : demandez à un quant de faire des analyses de sentiments sur Twitter !

Le data scientist est un hybride entre un mathématicien, un statisticien, un développeur, un « business analyst » et un communicant. C’est un super héros mais pas pour autant un magicien ! Il gère des mégadonnées de natures diverses tout en passant de la culture de l’échantillon à la culture de l’ensemble et s’intéresse viscéralement au métier sur lequel portent ses analyses.

Je défends l’idée que le data scientist est né de la rencontre d’un (ou d’une) scientifique passionné par les données avec une révolution technologique qui ouvre toutes les portes du possible.

Que pourra faire pour vous un data scientist ?

Maintenant que la connaissance des données est un axe fort pour tous les secteurs d’activités, que les gros volumes de données structurées ou non sont monnaies courantes dans les entreprises et que les technologies Big Data se sont démocratisées, toutes les entreprises peuvent prétendre à employer une équipe de data scientists. Et ce métier trouve son application partout : banque, assurance, mutuelle, marketing, énergie, grande distribution, industrie pharmaceutique, secteur public… et même politique (cf l’article Gouvernement des algorithmes sur le Blog d’Henri Verdier, administrateur général des données de l’Etat).

Le data scientist mène des projets Big Data. Il peut s’agir de projets destinés à clarifier les données de l’entreprise (classification, vision 360…), expliquer des phénomènes ou des comportements (désabonnement, fraude…) ou, tout simplement, s’atteler à découvrir les moyens d’améliorer les produits ou les services offerts par l’entreprise.

Vous avez peut-être déjà lu la définition imagée proposée par Monica ROGATI (Linkedin) : le data scientist « est la rencontre de Christophe Colomb et de l’inspecteur Colombo : les yeux éclairés d’un explorateur et la perspicacité d’un détective ».

Le data scientist cherche à comprendre le métier dans lequel il évolue. Puis à comprendre les données, en les préparant, les explorant et les recoupant avec plusieurs sources, internes mais également externes qu’il doit trouver. Enfin il les analyse et leurs applique des modèles prédictifs puis évalue et effectue des recommandations pour améliorer l’objet de son étude.

Quelles sont les compétences d’un data scientist ?

Un data scientist doit avoir une forte appétence pour les données, tout autant que pour les technologies, les langages et les outils informatiques, maîtriser les techniques d’analyse de données et les méthodologies statistiques. Mais il doit aussi être expert dans la compréhension et l’interprétation des données et détenir un bon savoir-faire dans le secteur d’application des données analysées.

Son éthique – voire quelques compétences juridiques – lui permettront d’éviter un usage « extrême » des données manipulées tandis que son savoir rhétorique mettra en lumière les résultats de son analyse.

Il existe deux types de profil aujourd’hui sur le marché : d’une part, de jeunes data scientists fraichement sortis d’écoles, curieux, imaginatifs et très pointus dans les nouvelles technologies sans avoir réellement beaucoup manipulé, sauf peut-être pour les plus passionnés qui « jouent » sur des plates-formes mondiales de data science (cf. Kaggle ou datascience). Et d’autre part, des « reconvertis » plus séniors qui, passionnés par la data depuis déjà des années, ont évolué, en autodidacte ou en suivant des cursus spécialisés, vers le métier de data scientist. Ils sont (parfois) moins experts en nouvelles technologies mais ont plus de recul sur l’écosystème de la donnée (gouvernance, qualité, architecture, accessibilité..), la conduite de projet et les ficelles de la « business analyse ».

Comment le recruter et le garder ?

Ne cherchez pas pour autant le mouton à 17 pattes ! Votre besoin dépendra de votre ambition et votre maturité dans vos projets Big Data. Un jeune data scientist mal accompagné peinera à comprendre les données de l’entreprise et donc à les analyser, tandis qu’un data scientist en chef aura moins d’appétence à programmer mais saura mieux gérer le portefeuille de besoins.

Je conseille d’embaucher un data scientist junior pour intégrer une équipe ou de recruter un data scientist en chef pour piloter une équipe.

Les formations n’ont pas encore atteint une forte maturité. Depuis la rentrée 2014, certaines écoles d’ingénieurs proposent des masters 2 ou masters spécialisés en data science (par exemple Polytechnique et Telecom Paris) ou ont adapté leur cursus existant (notamment des écoles de statistiques comme l’ENSAE, l’ENSAI, Paris Tech, Polytech Lille). Il existe aussi des certificats ou formation diplomantes professionnelles (cf CEPE ou MBA).

Le data scientist se recrute sur linkedin, Viadéo et autres sites (mais il faut connaitre les bons mots-clés) ou, en prestation, dans des cabinets de conseils spécialisés en Data Science (encore assez rares), en Transformation digitale ou en Innovation.

En plus d’être souvent jeune et pointu, le ou la data scientist (car c’est un métier assez féminin) pourrait avoir la grosse tête à force d’entendre qu’il fait « le métier le plus sexy du monde » et qu’il est très recherché. Alors comment manager « une star » et tout mettre en œuvre pour le retenir quand, enfin, vous avez réussi à trouver la perle rare ?

Il emploie un vocabulaire que vous ne maîtrisez pas : il parle de données labellisées, enrichies, d’apprentissage supervisé, de clustering, d’analyses prédictives, de régresseurs, classifieurs, data visualisation… Mais il parle aussi et avant tout usages et sens métier.

Il faut savoir satisfaire sa curiosité, sa soif de découverte, veiller à ce qu’il ne s’ennuie jamais et lui laisser suffisamment d’autonomie pour qu’il laisse parler les données. Rien n’est plus frustrant pour un data scientist que de ne pas faire de data Science surtout quand il lit chaque jour dans la presse qu’il en manque partout. Evaluez-le par les résultats, donnez lui du grain à moudre et les moyens pour le moudre.

C’est un curieux, un passionné qui a envie de partager sa passion. Ne l’isolez pas, ce n’est pas un « geek » à laisser derrière un PC. C’est un collaborateur qui partagera ses analyses au travers de visualisation parlantes et adaptées à son audience.

Où positionner un data scientist dans l’organisation ?

Il occupe des postes et des compétences à grande transversalité dans l’entreprise car il collabore autant avec des informaticiens que des experts métiers, et s’adresse aussi bien à la maîtrise d’œuvre pour accéder aux données, qu’au top management, pour exposer ses résultats. Il peut donc être positionné partout. Tout est ensuite un choix de stratégie interne.

DSI, Direction marketing, DAF ? La question sera plutôt « qui manage les projets Big Data dans l’entreprise ? » Et là sera bien positionné le data scientist.

L’intérêt de l’intégrer dans une DSI ou, mieux encore, dans une structure dédiée à l’innovation est d’utiliser ses compétences pour plusieurs métiers et ne pas le limiter à un silo de l’organisation.

Pour conclure, en deux avis très personnels,

Le data scientist est effectivement une ressource rare dont la pénurie risque d’augmenter avec les besoins croissants mais le potentiel de développement est important en France (il suffit de voir le palmarès de ces fameuses plates-formes mondiales de data science). Sachez identifier les collaborateurs prêts à franchir le pas et proposez-leur une évolution vers ce métier. N’hésitez pas à vous faire accompagner ou à mener des partenariats avec des structures qui ont ces compétences.

Enfin il me semble évident que rien ne sert d’avoir une superbe infrastructure et une armée de data scientists si vous ne savez que faire de vos données et comment y accéder. Commencez humblement, construisez un bac à sable et/ou un laboratoire (datalab), puis laissez parler vos données et s’épanouir vos data scientists. Les grandes révolutions viendront ensuite (presque) d’elles-mêmes !

data scientist - Observatoire CONIX de la Donnée

Auteur : Delphine BARRAU – Illustration © yuryimaging – Fotolia.com

Nouveaux métiers de la donnée, mythe ou réalité ?

Nouveaux métiers de la donnée
Si vous faites de la modélisation de données, de la gestion de données, de l’administration de données, de la construction de référentiels… et non de la data-visualisation, de la data-gouvernance, de la data-science ou de la data-stratégie, devez-vous vous considérer comme « dépassé » pour autant ?

Avec l’avènement de certains « nouveaux » métiers, qui font la une de journaux spécialisés ou des blogs, qu’en est-il aujourd’hui des activités autour des données ?

  • Comment ces rôles sont-ils portés et comment ces activités sont-elles attribuées aujourd’hui à travers ces « nouvelles » missions ?

Est-ce qu’un « Data Miner » ou un « Data Analyst » a la même mission qu’un gestionnaire de données d’antan ?

Le premier a-t-il couvert tout ou partie du périmètre de la mission du second ? Ou peut-on parler d’une approche totalement différente du métier, de son rôle, de sa fonction et de ses activités ?

  • Et ces « nouveaux » métiers (dont une liste non exhaustive est citée à la fin de l’article), sont-ils réellement nouveaux ou ne font-ils que reprendre ce qui existe déjà en rassemblant des parties de métiers existants ?
  • Est-ce le changement de modèle d’entreprise qui est à l’origine de ces « nouveaux » métiers ?

Avec une évolution de l’entreprise vers un modèle digital qui entraîne des modifications importantes au niveau technologique, qui crée de nouveaux besoins de services, l’orientation est résolument dirigée vers les clients de l’entreprise ; avec une diminution du temps consacré à la construction de nouveaux systèmes au profit du temps consacré à la gouvernance… Mais cela implique-t-il une nouvelle approche des métiers ou simplement une redistribution des activités ?


CONIX, dans le cadre de son Observatoire de la Donnée, s’interroge sur l’émergence de ces « nouveaux » métiers, la façon dont les acteurs de la DSI et des directions « Métier » vont être impliqués et impactés par l’arrivée de ces nouveaux rôles, au carrefour stratégique de l’évolution de l’organisation, des processus et de la gouvernance.

A ce titre CONIX vous propose, à travers une série d’articles, de brosser le portrait des métiers émergents autour de la data et de faire le lien avec les résultats d’enquêtes et d’analyses de l’observatoire de la donnée à paraître en fin d’année 2015.

Mais, en attendant les résultats, rendez-vous le mois prochain pour découvrir le « Data Scientist ».

Les nouveaux métiers / métiers émergeants autour de la DATA :

  • Data Scientist, Data Miner, Data Analyst, Data Steward, Data Strategist,
  • Chief Data Officer, Data Manager, Data Protection Officer, Data Custodian,
  • Data Architect, Data Sourcer, Responsable Open Data,
  • Correspondant Informatique et Liberté,
  • Animateur Responsable Datalab,
  • Responsable de Centre de Service BI/Data agile, Traffic Manager,
  • Data Business Analyst,

 

Nouveaux métiers de la donnée - Observatoire CONIX de la Donnée

Auteur : Jean-Marc MESSAN

Pour une définition de l’IT Compliance de la Donnée à travers l’explosion des flux

Compliance IT de la donnée

Depuis quelques années, l’explosion des données se caractérise par les dimensions hors normes en jeu, les  natures diverses et atypiques des sources (ERP, CRM, SMAC : Social, Mobile, Analytic, Cloud)  et les contraintes de conservation qui en résultent. Ceci crée des opportunités d’innovation pour les  métiers mais aussi une implication de la fonction IT Risk qui devient le garant d’un cadre de conformité IT de la donnée.

Un cadre de conformité IT de la donnée, pour quoi faire ?

La valorisation de la Donnée doit s’accompagner d’un cadre IT Compliance Risk qui s’assure que la Donnée est conforme à la fois :

  • aux attentes métier (capture, traitement, disponibilité, sauvegarde, intégrité de la donnée) ;
  • aux attentes de gouvernance (respect des procédures des opérations (documentation), sécurité (droits d’accès), respect des standards IT (architecture, obsolescence), respect des contrats envers les fournisseurs, continuité d’activité, réponse aux auditeurs internes, certification de type ISAE 3402…) ;
  • et aux attentes réglementaires ou légales (données personnelles, durée d’archivage,…).

<p »>La combinaison de ces 3 attentes crée de facto une définition élargie de la notion d’IT Compliance.

Un cas d’application

Exemple de l’une de nos missions dans le cadre des marchés financiers et du Dodd Frank Act autour du traitement d’un ordre SWAP. L’un des objectifs était de pouvoir reconstituer au travers d’un identifiant unique (personne, numéro d’opération) :

  1. tous les flux opérationnels (opérations effectuées à travers les départements Front Office/Middle Office/Back Office) ;
  2. tous les flux informationnels en termes de Data Processing (revue des accès applicatifs, logiciels utilisés, flux middleware, serveurs applicatifs, serveurs de base de donnes, stockage, backups) ;
  3. toutes les opérations et flux de données de type voix, messagerie email, messagerie instantanée se rattachant à cet identifiant ;
  4. tous les échanges publics sur des réseaux sociaux (Facebook, Twitter, Instagram, LinkedIn, Viadeo…) qui ont pu être faits.

Une méthodologie globale, la DATA Processing Approach

Cette IT Compliance demande une approche ERM – Enterprise Risk Management

  • pluridisciplinaire : regroupant les Directions Fonctionnelles Risques et Conformité, les auditeurs (internes et externes), les Architectes IT, les Services Managers et l’ensemble des acteurs en charge de la gestion des assets IT (SAM, obsolescence,…) ;
  • globale et systématique : s’inscrivant dans une démarche holistique complète, questionnant chaque activité IT, chaque famille de composants.

CONIX a développé une méthodologie globale de gestion des risques adaptée à la Gestion de la Donnée (Data Processing Approach). Elle permet de garantir :

  • la bonne délivrance du service attendu selon les besoins Métier (disponibilité, traitement, sauvegarde) ;
  • la protection de la donnée : intégrité de la donnée, droits d’accès aux informations ;
  • la conformité aux standards de l’architecture qui soutient la donnée ;
  • la conformité réglementaire : données personnelles, conservation des données.

Cette méthodologie, déclinable aussi bien dans un environnement IT propriétaire que dans un environnement Cloud (Iaas, Paas, Saas), se traduit par :

  • Une gouvernance avec des rôles et responsabilités clairement identifiées et des règles d’escalade adaptées ;
  • Un IT Compliance Risk framework qui répertorie l’ensemble des risques opérationnels sur l’intégralité du scope des activités IT et de leurs composants. L’intégration de ce framework IT Risk dès l’amont, est la condition d’une « Compliance by Design » qui accompagne les projets Data dès leur conception, de façon à identifier toutes les composantes qui serviront de base à la fourniture d’information. Nous l’adaptons à chaque exigence réglementaire (Dodd Frank Act, EMIR/MiFID regulations, EU Data Protection) ;
  • La définition de politiques et de procédures ;
  • Un plan de contrôles élaboré à partir d’objectifs, garant de la valeur ajoutée de la Donnée. Ce plan de contrôles adresse l’ensemble des activités IT (stockage, gestion de capacité, respect des règles d’archivage, gestion des accès, continuité d’activité, gestion des incidents,…) ;
  • Un monitoring et reporting qui permettent à travers des indicateurs (KRI – Key Risk Indicators-, niveau de maturité,…) de s’assurer que le niveau de Risque est maitrisé.

L’IT Compliance Manager, un métier clé du « data world »

L’approche IT Compliance de la donnée révèle l’IT Compliance Manager comme un métier clé du « data world ».

C’est lui qui va accompagner l’élaboration de la Cartographie des Risques basée sur le Data Processing Flow, la création d’un cadre de gouvernance de la donnée orienté Risques, la détermination du niveau de maturité/acceptation du Risque, la définition des Politiques – Principes – Processus, la création d’un Modèle de conservation des données et la définition de Reporting (métriques KRI – précision, intégrité, cohérence, complétude, validité).

Moins en vue au plan Marketing que le Chief Data Officer ou le Data Scientist, l’IT Compliance Manager est un métier essentiel dans l’environnement des données. C’est lui qui orchestre la Conformité IT de la Donnée et contribue à doter les acteurs en charge de l’innovation, de données conformes et de qualité. Il est important de bien l’intégrer dans le panorama des métiers qui comptent dans la transformation numérique autour de la donnée !

IT Compliance - Observatoire CONIX de la Donnée

Auteur : Faha RAMOELINTSALAMA

Une nouvelle expérience Data Science pour CONIX : allier talents et gouvernance

Une nouvelle expérience Data Science pour CONIX : Allier talents et gouvernance

Si notre réussite honorable au challenge AXA nous a permis de tirer de premiers enseignements concrets sur le profil du Data Scientist, notre accompagnement d’un grand client de l’Energie confirme la nécessaire combinaison de la data science et de la gouvernance.

Le projet

La construction de ce projet d’analyse de données réunit des éléments de BIG DATA (plusieurs millions de données), de DATAVIZ (restitution visuelle pour l’aide à la décision) et d’OPEN DATA (des données internes enrichies par des données externes puis ouvertes au sein d’une communauté d’intérêt).

Il se découpe en quatre phases rejouées périodiquement :

  • Capter la donnée de manière automatique ;
  • Mettre en qualité cette donnée et l’enrichir avec des données externes issues entre autres de l’INSEE (population) ;
  • Analyser cette donnée en mettant en œuvre des algorithmes mathématiques évolués (dans notre cas des modèles combinatoires sous contraintes) ;
  • Restituer l’information d’une manière visuelle et graphique pour aider à la décision.

La confirmation des premières convictions

La réalisation en quelques jours d’une maquette pour ce projet en utilisant les outils disponibles au « laboratoire de données » nous a confortés dans nos convictions.

La création d’un laboratoire de données outillé même en mode « bac à sable » permet de monter rapidement des solutions opérationnelles répondant à des besoins métiers.

Si toutes les organisations ne disposent pas d’un super héros en data science, la combinaison des talents est un bon compromis : celui (ou celle) qui connait les données, leurs valeurs et leurs sens, celui qui manipule les données et interviendra dans les phases amont de préparation, de croisement, d’enrichissement et de mise en qualité des données, celui qui met en œuvre le moteur d’analyse des données et enfin celui qui travaille le design de l’outil final afin de fournir un outil visuellement parlant et représentatif pour le métier.

L’existence d’un laboratoire ouvert, de compétences en place et l’utilisation des outils libres (tels que R Studio ou HUE) ou le recours aux solutions de startups montantes permettent également de réduire les coûts de mise en œuvre.

Un laboratoire efficace

Mais si ces composants sont nécessaires pour conduire un projet, les clés de la réussite d’un laboratoire ne se limitent pas à des outils et des talents, ne serait-ce que pour répondre à quelques questions élémentaires :

  • Comment capter les cas d’usages ?
  • Comment dimensionner son laboratoire pour être en mesure de répondre à toutes les demandes ?
  • Comment industrialiser le résultat d’un POC sans perdre des mois ?
  • Comment piloter et manager une équipe aux talents aussi divers ?
  • Etc …

La réussite d’un laboratoire c’est aussi et peut-être avant tout une gouvernance maitrisée, des process définis, une animation continue, un bon staffing, sans oublier une rotation des compétences pour éviter les dérives :

  • Mettre en place un catalogue piloté des questions métiers soumises (via un réseau informel de correspondants, une communication interne ou externe, une écoute permanente, des suggestions DSI…) pour capter les besoins.
  • S’appuyer sur un comité de coordination des données pour sélectionner et prioriser les usages en fonction des données disponibles ou de leur coût d’extraction, de leur niveau de qualité par rapport à l’usage souhaité et du retour sur investissement (est-on dans une étude « One Shot », ex : adaptation d’offres, ou dans un maquettage avant industrialisation, ex : moteur de maintenance prédictive ?). (Savoir abandonner)
  • Assurer un pilotage transverse pour connaitre les données de l’entreprise (sensibilité, valeur, qualité), filtrer les données utiles et riches de sens et faciliter la création de nouveaux usages. (« In God we trust. All others must bring data » Deming)
  • Penser architecture transverse pour répondre notamment aux questions autour de l’architecture des données et du Cloud (autant pour le stockage des données que pour les capacités de calcul) et pour pérenniser les solutions opérationnelles. (Oser et Innover)
  • Enfin, manager les talents pour organiser et animer la pluralité des compétences, avec une bonne vision de l’état de l’art et le recours à des formations qui préparent de façon opérationnelle à la data science, telles que celle du centre de formation continue de l’ENSAE (Certificat « Data Science »).

CONIX vous accompagne

En conclusion, pour garantir la réussite des projets dans un laboratoire de données, ce dernier doit porter une offre complète.

Par nos expériences passées en conduite de projets et gestion des données, notre connaissance intime des métiers de ses clients, notre implication et notre compétence en terme d’innovation digitale et depuis peu notre investissement dans la datascience, nous sommes aujourd’hui en mesure de vous accompagner dans la mise en œuvre efficiente de votre laboratoire de données.

laboratoire - Observatoire CONIX de la Donnée

Auteur : Delphine Barrau