La datavisualisation

Nous sommes envahis par un grand nombre de données que notre cerveau ne peut exploiter et analyser simultanément. Face à cela, la datavisualisation fait parler d’elle comme une alternative et un moyen pertinent de mettre en valeur la donnée.

Si le concept de datavisualisation existe depuis longtemps, la révolution Big Data lui a donné un nouveau souffle. Immersion dans la datavisualisation, cette science qui donne la parole aux chiffres :

  1. Qu’est-ce que la datavisualisation ?

L’expression « une image vaut mille mots » prend tout son sens lorsqu’on réalise que 90 % de l’information transmise au cerveau est visuelle. La data visualisation utilise cette sensibilité à l’aspect visuel pour faire passer des informations qui sont, de prime abord, complexes.

Désignée comme l’art de transformer la data en représentations visuelles, la datavisualisation fait parler les chiffres et leur donne une signification. Plus encore, elle permet d’aborder des informations sous un autre angle, pour mettre en lumière des faits et des réalités qui ne sont pas toujours visibles au premier abord.

L’esthétique joue un rôle important puisque les données sont retranscrites sous forme d’objets visuels tels que des graphiques, des cartographies, des chronologies ou des mappings.

Considérée comme un outil de communication puissant et efficace, elle permet également un gain de temps conséquent dans l’analyse et la recherche de données.

  1. Un outil stratégique de Business Intelligence

La Business Intelligence, désigne toutes les solutions qui mettent à disposition des informations clés aux managers grâce au traitement, à l’analyse et la représentation des données. Ces solutions incluent la datavisualisation.

Dans leur transition vers des organisations « data-driven », les managers et les décisionnaires s’appuient sur la datavisualisation comme outil stratégique dans la gestion de leur entreprise. La datavisualisation utilise le big data comme une solution opérationnelle dans le processus des prises de décisions en entreprise.

Les interminables tableaux Excel laissent place aux tableaux de bord fonctionnels, interactifs, personnalisés et actualisés en temps réel. Les managers y retrouvent les principaux KPIs et drivers qui leur sont utiles pour analyser leur activité. La visualisation interactive permet l’exploration des données en profondeur et également de jouer sur tous les paramètres visuels (couleurs, taille, positionnement dans l’espace…) pour démarquer les différents secteurs d’activités et KPIs.

En un coup d’œil, le décisionnaire obtient une vue d’ensemble qui lui permet de comprendre le contexte global de la situation, lui offrant à la fois un gain de temps et une évolution de sa productivité.

Envie d’en savoir plus sur les solutions de datavisualisation ? Contactez-nous

Conix – Quand data et conformité bancaire s’unissent

« Swissleaks », « Panama Papers », crise financière des « subprimes » en 2007… De nombreux scandales dans le secteur financier ont poussé les autorités régulatrices du secteur de la finance à prendre des mesures drastiques. Ainsi, les réglementations nationales et internationales se font de plus en plus nombreuses et pressantes pour contrôler le système bancaire.

Au sein de cet environnement complexe et de cette inflation réglementaire, la fonction de conformité (compliance) a émergé. Elle représente aujourd’hui un enjeu majeur. Elle s’inscrit dans une optique large, de sécurité financière, de respect de dispositions législatives et réglementaires, de lutte contre le blanchiment d’argent, le terrorisme et la corruption, et de normes déontologiques.

  • La conformité bancaire, avant tout une opportunité de croissance

La fonction de conformité représente les procédures et mesures misent en place pour veiller au respect des lois et des règlementations professionnelles externes. Les principaux objectifs sont la détection et l’anticipation des risques de non-conformité qui pourraient compromettre la pérennité de l’entreprise ainsi que sa réputation. La fonction compliance a également la responsabilité du respect des lois et des règlements internes à l’entreprise fixés par le conseil d’administration. Cela peut concerner le code de conduite ou encore les procédures de relation client misent en place par les réformes telles que le KYC (Know Your Customer) qui émanent de la Loi Sapin II (2016).

Les pénalités pour non-respect des législations peuvent être financières, juridiques, administratives ou disciplinaires. Au-delà du risque financier, la nuisance de la notoriété et de la réputation de la société pouvant entraîner des conséquences dramatiques, représente une forte menace.
La fonction de conformité est une alternative qui favorise une certaine transparence du secteur bancaire et donc une opportunité de croissance et un gage de confiance pour les clients. Plus encore, elle représente de la valeur ajoutée et valorise l’image de marque.

La fonction de Chief Compliance Officer (COO), au cœur des décisions stratégiques, se développe dans les entreprises du secteur financier. Elle a pour responsabilité première la bonne gouvernance de ces nouveaux enjeux afin qu’ils incarnent une opportunité et non une menace pour le futur de la société.

  • La data au cœur des enjeux de conformité

Dans l’étude “Digital Finance: Meeting ethics and compliance challenges in financial services », il est démontré que le digital dans sa globalité représente un facteur clé de succès dans la mutation de la fonction compliance.

Comme preuve de bonne gouvernance, les autorités en charge du respect des lois et des réglementations demandent aux entreprises concernées des rapports complets et détaillés voire la preuve de la façon dont sont produits ces rapports (à l’image de la norme BCBS 239).

En effet, selon l’étude de The Economist Intelligent Unit, 57 % des individus sondés ont affirmé qu’afin d’améliorer la « conformité » de leur entreprise, ils ont développé de nouvelles exigences en matière de collecte d’informations (données) et de reporting.

Cependant, ce type de reporting nécessite une excellente performance pour l’extraction, le traitement et l’analyse des données. Or, l’analyse des données est complexe de par la sophistication du réseau d’informations de la structure bancaire puisqu’il englobe une multitude de systèmes d’informations historiques, nouveaux et interconnectés. Le traitement des données est donc un enjeu important et il est au cœur des préoccupations des dirigeants puisque 58 % estiment que les exigences relatives à la gestion des données représentent un challenge, selon The Economist Intelligent Unit.

L’analyse des données doit permettre d’identifier les problématiques de conformité et les solutions pour y remédier. Elle va également améliorer les tests de conformité et anticiper les risques qui y sont liés.

L’importance de la gestion des données pour la conformité est illustrée par la montée des Chief Data Officers (CDO) au sein des institutions financières. Selon une étude de PWC, 66% des entreprises du secteur financier ont créé un poste de CDO dont 75 % affirment avoir été motivés par le durcissement et les exigences des réglementations financières. (voir notre infographie sur les CDO)

De nouvelles solutions se développent pour répondre au mieux à ce besoin exponentiel et primordial.

Face à cela, les entreprises se dotent de dispositifs voire de S.I. à part entière dédiés à la conformité, naturellement et impérativement data centric.

Le data lineage pour les Nuls

data lineage

 

Les établissements bancaires font face depuis 2014 à un échéancier contraignant pour être en conformité avec le Comité de Bâle sur le contrôle bancaire (BCBS 239), qui a propulsé le data lineage dans le top 5 des chantiers incontournables à mettre en œuvre pour améliorer leurs capacités à produire et fiabiliser les reportings réglementaires, qui font l’objet de réguliers exercices-test par la Banque Centrale Européenne.

 

Complémentaire d’un dictionnaire de données et d’une cartographie applicative du SI, le data lineage (flux de données en français) représente le cheminement de la donnée depuis sa source jusqu’à sa restitution ou son usage, avec tous les éléments de ses transformations successives (normalisation, transformation, règles de calcul, agrégation, filtrage,…).

 

Le data lineage réalise ainsi une véritable cartographie des processus de traitement de l’information centrée sur la donnée, qui le destine à un usage orienté métier : sa vocation est donc la traçabilité, non pas au sens de la piste d’audit, mais pour justifier de l’exactitude de l’information produite, en devenant la colonne vertébrale de la stratégie de qualité des données.

 

Hors BCBS 239, le nouveau cadre concernant la protection des données à caractère personnel (RGPD) s’appuie aussi sur le data lineage pour mieux maîtriser les processus de traitement des données, ne limitant ainsi pas son champs d’applications aux seuls établissements financiers.

 

Au-delà des bénéfices immédiats qu’il apporte au cadre réglementaire, le data lineage devient un vecteur incontournable dans la gestion des risques, un outil d’optimisation opérationnelle, ainsi qu’un puissant levier de gouvernance des données permettant d’envisager des évolutions pragmatiques du système d’information, sous réserve toutefois que la démarche soit pérenne et bénéficie d’un processus d’actualisation continu.

 

CONIX et PraXeme travaillent en 2018 sur la rédaction d’un cadre méthodologique qui sera prochainement proposé afin d’aider à la mise en œuvre d’une démarche de data lineage.

 

Auteur : Laurent FAULLIMMEL

 

Autre article susceptible de vous intéresser : Penser Data

Le décisionnel autrement : les Time-series databases

Le décisionnel autrement : les bases de données de séries chronologiques (Time-series databases)

Lorsque l’on fait de la métrologie (appels téléphoniques, mesures de performance, tracking de personnes, finance, évènements sur des équipements réseaux) on se retrouve très rapidement avec des volumes très importants. Dans le domaine des télécoms ou de la sécurité il n’est pas rare d’avoir des volumétries de plusieurs dizaines de millions d’évènements par mois. Chez les collecteurs de données personnelles (Facebook, Google et consorts) on parle en milliards.

Dans ce cadre, les bases de données relationnelles montrent leurs limites.  On peut repousser ces limites mais dans ce cas il faut avoir un portefeuille très garnis. Et des fois cela ne suffit même pas …

Ces données de métrologie sont souvent définies par les attributs suivants :

– Un horodatage (timestamp)

– Une source permettant d’identifier l’origine de la mesure

– Une métrique permettant, entre autres, de caractériser la nature de la mesure

– Une valeur

Time-series databases

 

Elles ont également plusieurs caractéristiques principales :

– De très nombreuses données : par exemple le nombre total de transactions des horodateurs de paris en 2014 représente près de 25 millions de points (https://opendata.paris.fr/explore/dataset/horodateurs-transactions-de-paiement/)

– Des données immuables : en principe, ces données ne sont jamais modifiées après insertion

– L’horodatage est la clé d’accès privilégiée : ce type d’accès au sein de la base de données relationnelles ajoute des traitements supplémentaires, qui affectent le stockage et l’accès à ces données

– Leur utilisation nécessite la manipulation de fonctions statistiques (maximums, minimums, moyennes, déviations, etc.) car il est souvent utile de réduire la résolution pour comprendre les données

 

Ceux qui ont déjà travaillé avec ce type de données savent qu’ils vont devoir relever plusieurs défis pour avoir des performances correctes :

– Limiter les accès complets à des données « mortes » : on fait souvent appel dans ce cas au partitionnement de tables

– Gérer les calculs de date sans pénaliser les performances, en maniant le between en lieu et place du trunc par exemple

– Indexer des données dont les valeurs sont uniques en utilisant des index fonctions, car la disparité des données rend l’index b-tree inutile

 

Pour restituer et stocker ces données temporelles on avait « souvent » recours à  RRD Tool. Cependant cet outil impose plusieurs contraintes et limites. Tout d’abord il est très spécialisé, il adresse principalement des données de supervision. De plus, il est relativement complexe à mettre en œuvre et nécessite de se poser les bonnes questions pour aborder son exploitation à long terme. Et surtout la caractéristique de RRD Tool qui fait sa force est également sa plus grande limite, en effet le principal avantage d’une base RRD est sa taille fixe, ce qui implique qu’il y a perte de précision au fil du temps.

 

Pour répondre aux besoins de stockage des données temporelles, de nouvelles bases de données sont apparues. Ce sont les bases de données de séries chronologiques (Time-series databases) qui sont spécialisées sur les problématiques de données temporelles et très performantes dans ce cadre d’utilisation. Ces bases de données temporelles partagent dans l’ensemble les caractéristiques suivantes :

– Architecture industrielle, scalable et haute disponibilité (avec plein de nouveaux outils à découvrir : Docker, Puppet, Chef, Kubernete)

– API permettant le stockage et le requêtage basé sur des paires clés/valeur (au revoir le SQL bonjour aux requêtes http et aux réponses JSON)

– Possibilité d’effectuer des opérations statistiques natives sur les données

– Pas de perte de précision

 

L’écosystème de ces bases est très vivant et de nombreuses solutions sont disponibles. On peut citer  par exemple OpenTSDB qui est utilisé par StumbleUpon pour stocker plus d’un milliard de points par jour et qui s’appuie sur le moteur HBase. Un projet se détache du lot : InfluxDB. Il s’appuie sur levelDB (une librairie clé/valeur développée par Google dans une optique de performance) et s’inscrit dans une logique de développement qui vise à proposer une couche complète d’analyse des données temporelles avec les outils suivants :

  • Telegraf est un outil de collecte qui permet de récupérer des métriques sur des services Docker, RDBS, NoSQL, SNMP et bien plus
  • Influxdb est un moteur de base de données écrit en Go pour gérer de manière spécifique les données temporelles avec un objectif de haute disponibilité et de forte performance
  • Chronograf est une application de visualisation qui permet de faire des requêtes ad hoc, il inclut également des Template et des Dashboard préconfigurés
  • Kapacitor est le moteur interne d’Influxdb, on peut le configurer pour gérer des alerte

Avec le nombre croissant d’objets connectés qui produisent de la donnée temporelle et/ou spatiale, ces Time-series databases très spécialisées ont de bonnes chances de creuser leur trou dans le paysage technologique du traitement de la donnée.

 

Auteur : Jean-Christophe DurantonCONIX