Archives du mot-clé Big Data

Tour d’horizon des technologies du Big Data

CONIX présentera « Les dessous d’une méthode Big Data » le mardi 7 mars à 15h au Salon Big Data Paris.

En complément, voici un rapide tour d’horizon des technologies autour du Big Data. Celles-ci reposent sur différentes architectures, un panel d’éditeurs offrant des solutions clef en main ou par brique, de la startup aux leaders du marché informatique.

1. Modèle d’architecture BDAF

MapReduce est le modèle de référence BDAF (Big Data Architecture Framework). Il a été inventé par Google et permet d’effectuer des calculs parallèles et distribués sur des ensembles de données de taille supérieure au téraoctet. Il a connu un vif succès auprès d’Amazon et Facebook et auprès des technologies basées sur le stockage de données dans le Cloud.

Le Framework le plus connu basé sur ce modèle est Hadoop. C’est une implémentation open source en Java de MapReduce, distribuée par la fondation Apache.

Son système de fichier s’appuie sur HDFS (Hadoop Distributed File System), qui s’inspire de celui de Google (GFS), son créateur.

D’autres frameworks basé sur MapReduce proposent des alternatives :

  • BlobSeer : accès concurrent et versionning amélioré
  • Phoenix : utilisé sur des ordinateurs multi-cœurs, technologie threads et non serveurs
  • Mars : processeurs graphiques, plus performant que Phoenix
  • Framework Ecologique : orienté économie d’énergie

D’autres acteurs comme Teradata, Oracle, EMC, SAP proposent aussi des architectures pour les projets Big Data, basées sur des serveurs standards aux configurations optimisées.

Microsoft, avec sa solution Azure de plateforme applicative Cloud propose aussi des services orientés Big Data. Son système de fichier, propre à Microsoft, est basé sur Data Lake Store, système de fichiers hiérarchique comme HDFS.

2. Stockage de Données « Data Lake »

Le terme de « Data Lake » revient souvent quand on cherche le lieu de stockage des données. Un Data Lake (ou lac de données) est une instanciation physique d’un entrepôt de données logique. Les données sont dupliquées à partir de leur localisation d’origine vers un système de fichiers de données centralisé : les données sont physiquement regroupées.

Au vu du volume de données utilisé par un projet Big Data, les bases de données ne sont plus relationnelles. Les acteurs du marché s’appuient sur des SGBD NoSQL type MongoDB ou Cassandra pour les plus connues en licence libre. Des technologies propriétaires se partagent aussi le marché, notamment Oracle NoSQL, BigTable (Google), DynamoDB (Amazon).

3. Requête et analyse de données

Les langages de développement utilisés sont essentiellement Java, Python, et R (langage dédié statistiques et data science). Les services les plus connus d’accès aux données sont ceux de Google BigQuery, Big Data sur Amazon Web Services et Microsoft Windows Azure.

Les algorithmes qui traitent les données sont protégés par le secret professionel, c’est la propriété industrielle de ces acteurs du Web, leur valeur ajoutée. Les données sont accessibles par des API (interfaces de programmation) qui définissent les conditions d’accès et en restreignent les usages.

Les outils BI classiques sont conçus pour analyser et gérer des données organisées dans des schémas fixes et prédéfinis. Les techniques d’analyse Big Data permettent de s’affranchir de cette limitation.

La fondation Apache propose un cadre applicatif de traitements BigData, Spark, pour effectuer des analyses complexes à grande échelle. Son but est d’accélérer les traitements des systèmes Hadoop.

4. Hadoop rattrapé par Spark

En 2016, La maison d’édition O’Reilly[1] remontait que seulement 2680 sociétés utilisent Hadoop, le plus ancien sur le marché, alors que déjà plus de 2 000 entreprises utilisent Apache Spark. Cependant, bien qu’il y ait plus de 500 sociétés ayant une maturité Hadoop au niveau de la production, il n’y a encore que 67 sociétés avec ce niveau de maturité pour Apache Spark.

Cette étude ne compare que des produits basés sur des solutions open source. Les solutions propriétaires dont Microsoft Azure ne sont pas analysées.

[1] http://www.oreilly.com/data/free/files/the-big-data-market.pdf

 

technologies du Big Data… Au-delà de toutes ces technologies, rendez-vous mardi 7 mars au salon Big Data pour découvrir notre démarche !

 

 

 

 

 

Retrouvez ici un 2nd article sur le Big Data et son paradoxe cybersécuritaire

Auteurs : Afaf FAFI et Marouane ZAAMOUN