Le data lineage pour les Nuls

data lineage

 

Les établissements bancaires font face depuis 2014 à un échéancier contraignant pour être en conformité avec le Comité de Bâle sur le contrôle bancaire (BCBS 239), qui a propulsé le data lineage dans le top 5 des chantiers incontournables à mettre en œuvre pour améliorer leurs capacités à produire et fiabiliser les reportings réglementaires, qui font l’objet de réguliers exercices-test par la Banque Centrale Européenne.

 

Complémentaire d’un dictionnaire de données et d’une cartographie applicative du SI, le data lineage (flux de données en français) représente le cheminement de la donnée depuis sa source jusqu’à sa restitution ou son usage, avec tous les éléments de ses transformations successives (normalisation, transformation, règles de calcul, agrégation, filtrage,…).

 

Le data lineage réalise ainsi une véritable cartographie des processus de traitement de l’information centrée sur la donnée, qui le destine à un usage orienté métier : sa vocation est donc la traçabilité, non pas au sens de la piste d’audit, mais pour justifier de l’exactitude de l’information produite, en devenant la colonne vertébrale de la stratégie de qualité des données.

 

Hors BCBS 239, le nouveau cadre concernant la protection des données à caractère personnel (RGPD) s’appuie aussi sur le data lineage pour mieux maîtriser les processus de traitement des données, ne limitant ainsi pas son champs d’applications aux seuls établissements financiers.

 

Au-delà des bénéfices immédiats qu’il apporte au cadre réglementaire, le data lineage devient un vecteur incontournable dans la gestion des risques, un outil d’optimisation opérationnelle, ainsi qu’un puissant levier de gouvernance des données permettant d’envisager des évolutions pragmatiques du système d’information, sous réserve toutefois que la démarche soit pérenne et bénéficie d’un processus d’actualisation continu.

 

CONIX et PraXeme travaillent en 2018 sur la rédaction d’un cadre méthodologique qui sera prochainement proposé afin d’aider à la mise en œuvre d’une démarche de data lineage.

 

Auteur : Laurent FAULLIMMEL

 

Autre article susceptible de vous intéresser : Penser Data

Le décisionnel autrement : les Time-series databases

Le décisionnel autrement : les bases de données de séries chronologiques (Time-series databases)

Lorsque l’on fait de la métrologie (appels téléphoniques, mesures de performance, tracking de personnes, finance, évènements sur des équipements réseaux) on se retrouve très rapidement avec des volumes très importants. Dans le domaine des télécoms ou de la sécurité il n’est pas rare d’avoir des volumétries de plusieurs dizaines de millions d’évènements par mois. Chez les collecteurs de données personnelles (Facebook, Google et consorts) on parle en milliards.

Dans ce cadre, les bases de données relationnelles montrent leurs limites.  On peut repousser ces limites mais dans ce cas il faut avoir un portefeuille très garnis. Et des fois cela ne suffit même pas …

Ces données de métrologie sont souvent définies par les attributs suivants :

– Un horodatage (timestamp)

– Une source permettant d’identifier l’origine de la mesure

– Une métrique permettant, entre autres, de caractériser la nature de la mesure

– Une valeur

Time-series databases

 

Elles ont également plusieurs caractéristiques principales :

– De très nombreuses données : par exemple le nombre total de transactions des horodateurs de paris en 2014 représente près de 25 millions de points (https://opendata.paris.fr/explore/dataset/horodateurs-transactions-de-paiement/)

– Des données immuables : en principe, ces données ne sont jamais modifiées après insertion

– L’horodatage est la clé d’accès privilégiée : ce type d’accès au sein de la base de données relationnelles ajoute des traitements supplémentaires, qui affectent le stockage et l’accès à ces données

– Leur utilisation nécessite la manipulation de fonctions statistiques (maximums, minimums, moyennes, déviations, etc.) car il est souvent utile de réduire la résolution pour comprendre les données

 

Ceux qui ont déjà travaillé avec ce type de données savent qu’ils vont devoir relever plusieurs défis pour avoir des performances correctes :

– Limiter les accès complets à des données « mortes » : on fait souvent appel dans ce cas au partitionnement de tables

– Gérer les calculs de date sans pénaliser les performances, en maniant le between en lieu et place du trunc par exemple

– Indexer des données dont les valeurs sont uniques en utilisant des index fonctions, car la disparité des données rend l’index b-tree inutile

 

Pour restituer et stocker ces données temporelles on avait « souvent » recours à  RRD Tool. Cependant cet outil impose plusieurs contraintes et limites. Tout d’abord il est très spécialisé, il adresse principalement des données de supervision. De plus, il est relativement complexe à mettre en œuvre et nécessite de se poser les bonnes questions pour aborder son exploitation à long terme. Et surtout la caractéristique de RRD Tool qui fait sa force est également sa plus grande limite, en effet le principal avantage d’une base RRD est sa taille fixe, ce qui implique qu’il y a perte de précision au fil du temps.

 

Pour répondre aux besoins de stockage des données temporelles, de nouvelles bases de données sont apparues. Ce sont les bases de données de séries chronologiques (Time-series databases) qui sont spécialisées sur les problématiques de données temporelles et très performantes dans ce cadre d’utilisation. Ces bases de données temporelles partagent dans l’ensemble les caractéristiques suivantes :

– Architecture industrielle, scalable et haute disponibilité (avec plein de nouveaux outils à découvrir : Docker, Puppet, Chef, Kubernete)

– API permettant le stockage et le requêtage basé sur des paires clés/valeur (au revoir le SQL bonjour aux requêtes http et aux réponses JSON)

– Possibilité d’effectuer des opérations statistiques natives sur les données

– Pas de perte de précision

 

L’écosystème de ces bases est très vivant et de nombreuses solutions sont disponibles. On peut citer  par exemple OpenTSDB qui est utilisé par StumbleUpon pour stocker plus d’un milliard de points par jour et qui s’appuie sur le moteur HBase. Un projet se détache du lot : InfluxDB. Il s’appuie sur levelDB (une librairie clé/valeur développée par Google dans une optique de performance) et s’inscrit dans une logique de développement qui vise à proposer une couche complète d’analyse des données temporelles avec les outils suivants :

  • Telegraf est un outil de collecte qui permet de récupérer des métriques sur des services Docker, RDBS, NoSQL, SNMP et bien plus
  • Influxdb est un moteur de base de données écrit en Go pour gérer de manière spécifique les données temporelles avec un objectif de haute disponibilité et de forte performance
  • Chronograf est une application de visualisation qui permet de faire des requêtes ad hoc, il inclut également des Template et des Dashboard préconfigurés
  • Kapacitor est le moteur interne d’Influxdb, on peut le configurer pour gérer des alerte

Avec le nombre croissant d’objets connectés qui produisent de la donnée temporelle et/ou spatiale, ces Time-series databases très spécialisées ont de bonnes chances de creuser leur trou dans le paysage technologique du traitement de la donnée.

 

Auteur : Jean-Christophe DurantonCONIX

La Protection des Intérêts des Clients : une règle simple avec plusieurs déclinaisons

Parmi les mesures prises en réponses aux dernières crises financières, figure le renforcement de la protection des intérêts des clients (PIC) des établissements de crédit et des prestataires des services d’investissement (PSI). La PIC a toujours été l’un des socles de la réglementation bancaire. Que recouvre précisément la protection des intérêts des clients ?

La PIC est une règle simple qui peut être résumée comme suit : « le professionnel dispensateur des produits financiers doit à tout instant, agir au mieux des intérêts de son client »

Ainsi définie, la PIC recouvre plusieurs principes du droit de la consommation en général et du droit financier en particulier. Elle est articulée par exemple, autour du devoir de conseils, du secret professionnel et de la protection des données à caractère personnelle, pour ne citer que ceux-là.

1 – Le devoir de conseil : des obligations de vigilance et de renseignement

Le devoir de conseil est le principe qui est le plus illustratif de la PIC ; il désigne les obligations de vigilance et de renseignement à a charge du professionnel vis-à-vis de ses clients. Le devoir de conseil comporte des obligations précontractuelles très normées et très diverses suivant les produits ou les activités concernées. Le devoir de conseil intègre ainsi le devoir de s’informer, le devoir d’informer et celui de mise en garde. Le professionnel doit en effet faire la découverte de son client, pour bien cerner son profil ainsi que son besoin afin de lui fournir la prestation la plus adaptée. Le dispositif MIF impose par exemple l’obligation de catégorisation des clients selon leur aptitude à comprendre les produits notamment les plus complexes, à formaliser les préconisations éventuelles et la décision du client sur la base de formulaires normalisés. Des informations précontractuelles doivent être fournies aux clients à travers le Document d’Information Clé, le DIC ou KID (Key Information Document). Cette démarche est démultipliée au niveau des produits d’assurances et des produits packagés. L’observation du délai de réflexion ou de rétraction complète ces obligations qui sont particulièrement requises dans le cadre du démarchage financier.

2 – Le secret professionnel : une obligation de plus en plus ambigüe

Un autre angle sous lequel peut être considérée la PIC, est le secret professionnel auquel est tenu le banquier aux termes de l’article L 511-33 du Code monétaire et financier. Ses fondements sont le secret des affaires et la protection de la vie privée. Le banquier doit ainsi s’abstenir de révéler les informations qu’il détient sur son client à des tiers. Si on comprend bien que ce devoir permet a priori de protéger les intérêts du client, il faut tout de même rappeler les limites à sa stricte application au quotidien. De nombreuses exceptions existent, qui sont permises d’ailleurs par la loi ; on peut évoquer l’inopposabilité du secret professionnel à certaines autorités comme l’AMF ou l’ACPR ; mais aussi le principe posé par l’article 10 du Code Civil à savoir : « Chacun est tenu d’apporter son concours à la justice en vue de la manifestation de la vérité. » On peut également évoquer des diligences auxquelles les banquiers ou les PSI sont tenus par ailleurs, par le même cadre réglementaire et qui paraissent en contradiction avec le secret professionnel, allusions faites à l’obligation de déclaration de soupçon dans le cadre de la lutte contre le blanchiment et le financement du terrorisme. Au tant le KYC (Know Your Customer) renforce la PIC, autant l’obligation de déclaration de soupçon l’effrite et l’inverse d’une certaine manière, en ce sens que sous peine d’amende, le professionnel ne doit révéler au client, l’existence d’une procédure sur la LCB/FT à son encontre.

 

3 – La règlementation « Informatique et libertés » au service de la protection des intérêts des clients

Dernier des principaux aspects de la PIC et non des moindres : le dispositif sur la protection des données à caractère personnel.  Le cadre réglementaire français en place depuis 1978 est désormais renforcé par le Règlement Général sur la Protection des Données entré en vigueur le 25 mai 2018. Sous le chapitre de la protection des données à caractère personnel., l’obligation d’agir au mieux des intérêts du client, se traduit entre autres par les principes inscrits à l’article 5 du RGPD à savoir : la licéité, la loyauté, la transparence dans le traitement des données, ainsi que la limitation des finalités et la minimisation des données. Autant de barrières de protection au cœur de la révolution digitale où la rencontre du Big Data et de l’Intelligence Artificielle, nourrit des rêves et des actes aux graves conséquences comme le montre le récent scandale Cambridge Analytica. Même si elle n’est pas exclusivement destinée au client consommateur de produits financiers, une des plus justes formulations de la PIC se trouve dans la loi informatique et libertés du 6 janvier 1978 : « L’informatique doit être au service de chaque citoyen (…) Elle ne doit porter atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques » En somme dans la collecte et le traitement des données personnelles de leurs clients les établissements de crédit et les prestataires de services d’investissement, doivent agir en tenant compte de leurs intérêts en termes de respect de la vie privée. Ils doivent s’abstenir de mettre leurs intérêts au-dessus de ceux du client, ce qui résume la PIC.

 

En définitive, la protection des intérêts des clients appartient à ces concepts clés, très riches, qui permettent aux établissements de crédit et au PSI de clarifier leur démarche de conformité ; elle peut servir de trame pour bâtir en grande partie, la cohérence globale du dispositif de conformité, qui permette à la fois de l’optimiser et de lui donner du sens.

Auteur : Jonas SILIADIN

La Business Intelligence : du reporting à l’analyse prédictive

Business Intelligence

Ce n’est un secret pour personne : la Business Intelligence (BI) n’est pas une discipline nouvelle. Et pourtant, malgré une cinquantaine d’années d’existence, elle cristallise encore, en 2018, de nombreux enjeux hautement stratégiques pour les entreprises.

Si elle fut un temps purement descriptive, la Business Intelligence est aujourd’hui prédictive. Face au potentiel que cela représente, la Business Intelligence est plus que jamais un sujet d’actualité.

Pour y voir plus clair sur ce sujet en pleine mutation, CONIX revient pour vous sur les évolutions techniques et stratégiques de la Business Intelligence au cours de ces 25 dernières années et envisage même la suite…

 

Business Intelligence classique, orientée sur l’analyse du passé

Les outils de BI avaient pour principale mission d’organiser, de synthétiser et de permettre l’exploitation des données collectées.

Les principales technologies utilisées sont les outils de traitement de données de type ETL, les bases de données relationnelles, les cubes OLAP et les outils de restitution.

Ces données étaient alors utilisées le plus souvent dans le cadre de reporting opérationnel et d’analyse multi dimensionnelle pour des besoins de pilotage.

 

Evolution de la BI, orientation vers le métier et un modèle prédictif

En complément de la pratique « classique » de la BI, toujours d’actualité, de nouveaux usages se répandent.

– Certains sont basés sur une orientation plus métier :

La mise en place d’agilité (« BI Agile ») permet de répondre toujours plus vite aux demandes métier, la BI « Self Service » pour une exploitation des données sans intervention IT.

Impactant les décisions métiers, la gestion de la qualité des données (« Data Quality ») devient un enjeu primordial et est de plus en plus traitée au niveau de l’entreprise (Data Management/Gouvernance).

De nouvelles façons d’accéder aux données par l’utilisateur sont également apparues, comme l’accès aux données dans un but exploratoire (« Data Discovery ») ou sous forme narrative (« Data Visualisation »).

– D’autres sur de nouvelles technologies :

L’apparition des écosystèmes BIG DATA et l’explosion des capacités de stockage ont bouleversé les usages traditionnels, en permettant l’analyse de données jusque-là inexploitables en terme de volume, de véhicule (flux par exemple) et de structure.

A partir de ces données historiques réelles et d’algorithmes statistiques complexes et distribués, l’analyse prédictive est capable de proposer une représentation future des données. Basé sur ces écosystèmes, l’apprentissage automatique (machine learning) commence à complémenter le Data-Mining.

Grâce à une mutualisation des moyens, les plateformes Cloud permettent elles une diminution des coûts, un accès aux différentes technologies sans expertise IT, et la concentration des ressources sur l’activité métier.

Le but de ces nouveaux usages : dégager de nouveaux axes de développement, capter des connaissances métier et construire des modèles prédictifs non seulement à partir des données de l’entreprise mais aussi de toutes les données disponibles générées par notre écosystème hyper connecté (Open Data, Réseaux sociaux, IoT, …), le tout dans un environnement toujours plus agile et réactif.

 

La Business Intelligence de demain : vers l’ère cognitive

A l’heure où l’intelligence artificielle est l’un des sujets les plus débattus du moment, l’analyse cognitive se prépare à prendre la relève de l’analyse prédictive.

Ainsi, la BI des prochaines années sera capable de permettre aux ordinateurs de construire des modèles prédictifs intelligents, capables d’apprentissages autonomes et d’interactions directes avec l’humain.

Une évolution drastique qui aura sans nul doute d’importantes conséquences sur la société de demain.

Auteur : Olivier CHEVALLIER

 

Envie d’en savoir plus sur la Business Intelligence ? Rendez-vous sur www.conix.fr !

Autres articles qui pourraient vous intéresser :