BigData Architecture et Technologies

Partager par email

×

Comprendre les concepts du BigData et savoir quelles sont les technologies implémentées

Code Titre Durée Prix HT
CB001 BigData Architecture et Technologies 2 jours Nous consulter

Objectifs

Comprendre les concepts du BigData et savoir quelles sont les technologies implémentées

Public

Chefs de projets, architectes, et toute personne souhaitant connaître les outils et solutions pour savoir concevoir et mettre en oeuvre une architecture BigData.

Pré-requis

Il est demandé aux participants d'avoir une bonne culture générale sur les systèmes d'information.

Post-Formation

Méthodes

50% Pratique 50% Théorique

Programme

Introduction

  • Rappel des besoins et des caractéristiques techniques des projets BigData
  • Le positionnement des technologies de cloud, BigData et noSQL.
  • Eléments d'architecture.

Stockage

  • Caractéristiques NoSQL
  • adaptabilité, extensibilité,
  • structure de données proches des utilisateurs, développeurs
  • Les types de bases de données : clé/valeur, document, colonne, graphe.
  • Données structurées et non structurées, documents, images,
  • fichiers XML, JSON, CSV, ...
  • Les différents modes et formats de stockage.
  • Importance du théorème CAP.
  • Stockage réparti : réplication, sharding, gossip protocol, hachage,
  • Systèmes de fichiers distribués : GFS, HDFS,
  • Les bases de données : HBase, BigTable, ..
  • Quelques exemples de produits et leurs caractéristiques :
  • Cassandra, MongoDB, CouchDB, DynamoDB, Riak, Hadoop.
  • Qualité des données, gouvernance de données.

Indexation et recherche

  • Moteurs de recherche.
  • Principe de fonctionnement.
  • Méthodes d'indexation. Mise en oeuvre avec elasticsearch.
  • Exemple de Lucene/solr.
  • Recherche dans les bases de volumes importants.
  • Exemples de produits et comparaison :
  • Dremel, Drill, ElasticSearch, MapReduce,

Calcul et restitution, intégration

  • Différentes solutions : calculs en mode batch, ou en temps réel,
  • sur des flux de données ou des données statiques.
  • Les produits :
  • langage de calculs statistiques, R Statistics Language, sas, RStudio.
  • Ponts entre les outils statistiques et les bases BigData
  • Outils de calcul sur des volumes importants :
  • storm en temps réel, hadoop en mode batch.
  • Zoom sur Hadoop :
  • complémentarité de HDFS et MapReduce.
  • Restitution et analyse : logstash, kibana, elk, pentaho
  • Présentation de pig pour la conception de tâches MapReduce sur une grappe Hadoop.

Environnement

Linux

Mot-clés

CB001_BigData-Architecture-technologies_CB001

Commander