Archives du mot-clé mégadonnées

Big Data : préparez le déluge !

Arche de Noé

Dans notre précédent billet, nous évoquions la « data agility » comme levier de réussite pour la conduite d’un projet Big Data.

Si cela reste notre conviction, il n’est pas rare de lire dans la presse spécialisée SI (exemple du sondage CRIP autour du Big Data) que l’un des principaux freins à la réussite d’un projet demeure l’insuffisance de compétences au sein des DSI.

Ayant en mémoire un autre article, paru il y a quelques mois, qui abordait de manière humoristique cette problématique, force est de constater que la question des compétences nécessaires à la réussite d’un projet Big Data est un sujet récurrent.

Alors en temps qu’animateur de projet, si vous deviez, tel Noé, n’embarquer que quelques personnes pour une aventure sur le « grand lac de données » qui devriez-vous choisir ? S’il faut effectivement des compétences techniques (probablement un peu rares en regard de l’engouement récent pour le Big Data), il faut également des compétences métier. Nous vous conseillons donc d’embarquer avec vous les 6 rôles suivants.

Un narrateur sera un élément clé pour faciliter l’adhésion au projet. Par ses qualités de communicant et ses talents d’orateur, il saura porter la conviction au niveau des directions métier, communiquer sur le résultat des études, et convaincre le top Management. Il doit aussi avoir une forte appétence pour les données et très bien les comprendre pour en saisir la complexité et les limites. Le narrateur peut être interne ou externe, côté DSI ou métier, tant qu’il est à l’aise pour animer et communiquer.

La construction du modèle de données doit s’appuyer sur un expert en modélisation. Cet acteur connait et comprend l’entreprise dans sa vision dynamique (produit ou processus) et dans sa vision statique (modèle des objets métiers). Il est le gardien du temple pour les définitions et les règles métiers. Cette compétence est détenue généralement dans les pôles architectures, du côté des architectes de données ou des urbanistes. Interne ou externe, il faut surtout éviter de reproduire les modèles historiques et apporter de la généricité et de l’évolutivité.

Un ingénieur en technologie Big Data appuiera l’équipe dans le choix des outils existants, pour cibler et implémenter ceux qui répondent le mieux au besoin et à l’environnement. En fonction de son profil et de l’ampleur du projet, il devra être accompagné de développeurs pour construire le système. Ces compétences n’existent encore que peu en interne et si beaucoup de SSI se positionnent sur le marché, c’est souvent du côté des PME et startups que l’on trouve les meilleurs profils.

Il y a « the man in the shadow » (en référence au « data shadow » du précédent billet). Expert de la donnée, il les connait bien car il les manipule depuis des années avec ses outils bureautiques (fonctions d’extraction de données des applications, Access, Excel pour les interpréter, messagerie pour les échanger…). Il apportera une compétence fondamentale sur la valeur des données de l’entreprise. C’est une ressource interne par excellence, à chercher, par exemple, du côté des services financiers, marketing, ou statistiques si il existe.

Le datascientist est celui qui va créer l’inspiration et générer des idées en manipulant les données à la recherche de corrélations intéressantes (nous vous renvoyons à un de nos précédents billets pour notre vision du datascientist). Il s’appuiera sur les sachants métier, l’expert en modélisation et « the man in the shadow » pour valider son analyse des données et utiliser les bonnes sources internes à l’entreprise.

Beaucoup de projets se retrouvent bloqués par un manque de données, soit parce que le processus qui les génère n’est pas instrumenté, soit parce que l’entreprise ne les possède pas, tout simplement. Les deux derniers acteurs précités vont devoir investiguer pour résoudre cette difficulté. Ils rendront un service inestimable en remettant constamment en question le reste de l’équipe et les autres parties de la société qui pourraient fournir ces fameuses données (référence aux éternels silos métiers). Mais ils seront parfois légalement « borderline » car ne se soucieront pas toujours des conséquences (respect de la vie privée, informations commercialement sensibles…).

Un déontologue viendra donc compléter cette liste. Au plus près des équipes pour poser les questions de confidentialité sur les données et les cas d’usages, ses compétences permettront d’éviter des ennuis avec les autorités mais également avec les clients. Car l’écart est grand entre ce qui est techniquement légal et ce que les utilisateurs sont prêts à accepter. Il aidera l’équipe à trouver le juste équilibre. De récentes études prouvent que les entreprises ont tendance à prendre plus de mesures conservatrices quand elles n’ont pas accès à des conseils de qualité sur ce qu’elles peuvent faire ou non, par peur de transgresser accidentellement une loi. Des cabinets se spécialisent de plus en plus dans cette mission, ou s’associent pour offrir une couverture complète de la chaine de la donnée.

En guise de conclusion et avant de se voir opposer la carte de la disponibilité des ressources, nous parlons bien ici de compétences. Certains profils peuvent donc posséder plusieurs compétences et cumuler les rôles. Et, bien sûr, ce ne sont pas des rôles à temps plein. Ils n’interviennent parfois que ponctuellement mais toujours au juste moment. Nous avons, par nos expériences passées, acquis une certaine visibilité sur les charges associées en fonction des projets et nous les partagerons avec plaisir avec vous.

Auteure : Delphine BARRAU

data - Observatoire CONIX de la Donnée

Mythes et réalités des mégadonnées

Big Data
Devenues en quelques années « le » concept à la mode, les « big data » (ou « mégadonnées » en bon français) sont aussi victimes de leur succès, galvaudées pour qualifier n’importe quel traitement de données ou dévoyées par des fournisseurs dépassés par les événements, qui tentent de survivre par quelque artifice marketing. Il n’est donc pas inutile de rétablir un peu d’objectivité sur le sujet.

Par rapport aux données « classiques » qui ont, de tout temps, été au cœur des traitements informatiques, ce qui distingue fondamentalement ces fameuses « big data », ce sont 3 caractéristiques principales, dites des 3 « V » : volume, variété et vélocité. Autrement dit, il est question d’exploiter en temps réel (ou presque) des masses d’information colossales disponibles sous des formats variés, structurés ou non.

Selon cette définition, il est facile de croire qu’il n’est question que de technologie. Erreur ! Certes, les outils sont indispensables pour tirer profit des mégadonnées mais ils doivent impérativement n’être considérés que comme des moyens. Ce qui fait la valeur du concept réside d’abord dans les usages qu’il autorise. N’oublions jamais que ce qui a conduit à créer Hadoop, NOSql et consorts, ce sont les besoins des géants du web d’explorer, analyser et valoriser les données qu’ils collectent sur leur centaines de millions d’utilisateurs…

Il convient donc de se méfier des promesses fallacieuses, qui, comme avec chaque nouvelle solution à la mode, cherchent à accréditer l’idée que la mise en place des logiciels de dernière génération va apporter une réponse quasiment magique aux anciens problèmes non résolus. Pour remettre les pieds sur terre, rien de tel que de définir un cas d’usage précisément cadré, avec des objectifs clairs, dont l’atteinte sera mesurée par des indicateurs fiables, dans un projet aux contours bien définis.

Un exemple classique est celui de la « vision client à 360° » : pour un cas de succès, à l’image de celui du leader mondial de l’assurance vie MetLife, combien d’entreprises ont cru qu’il suffisait de déployer, comme elle, une base de données MangoDB pour atteindre les mêmes résultats ? Or, les leçons à tirer de ce cas dépassent très largement les seules considérations techniques de mise en œuvre, touchant à l’organisation, les processus de l’entreprise, voire la vision même du métier.

La bonne nouvelle est qu’il existe des moyens relativement simples et peu coûteux d’éviter les erreurs en la matière. Grâce à la disponibilité généralisée de produits sous licence libre, il est possible de créer une infrastructure d’expérimentation à moindre frais. En y ajoutant une démarche un tant soit peu structurée (de type laboratoire d’innovation), tout ce qui est nécessaire pour identifier et concrétiser les applications utiles des mégadonnées se trouvera rassemblé.

Car, en réalité, en même temps que des outils plus ou moins révolutionnaires, le concept de « big data » tend à imposer avec lui une approche différente des projets. Les grandes cathédrales de la « Business Intelligence », bâties dans des cycles très longs, doivent laisser la place à des méthodologies plus agiles, privilégiant les tâtonnements et les retours en arrière, apportant une démonstration de valeur par petits incréments rapides.

Une telle démarche n’empêche nullement une vision stratégique, de celles qui envisagent la constitution d’un « data lake » (« lac de données ») d’entreprise, destiné à collecter la totalité des données potentiellement utiles dans l’organisation, indépendamment de ses silos et des frontières qui les délimitent. Simplement, ce « trésor » sera assemblé progressivement, au fur et à mesure des cas d’usage mis en œuvre, qui pourront alors eux-mêmes devenir de plus en plus ambitieux.

En guise de conclusion, une recommandation : surtout, ne cédez jamais trop facilement aux sirènes des mégadonnées. Vous n’obtiendrez pas de résultats positifs sans efforts et sans préparation. Le concept en est encore à ses balbutiements, les recettes toutes prêtes n’existent pas et les expérimentations restent indispensables pour les appréhender et les maîtriser. Mais ne doutez pas : avec la maturité que vous acquerrez, vous aurez de plus en plus de chances de réussir.

Auteur : Patrice Bernard