Programme
Introduction
- Les fonctionnalités du framework Hadoop. Les différentes versions.
- Architecture et principe de fonctionnement.
- Terminologie : NameNode, DataNode, ResourceManager, NodeManager.
- Rôle des différents composants.
- Le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
- Ooziz, Pig, Hive, HBase, ...
Les outils Hadoop
- Infrastrucure/Mise en oeuvre :
- Avro, Ambara, Zookeeper, Pig, Oozie, Falcon, Pentaho
- Vue d'ensemble
- Gestion des données.
- Exemple de sqoop.
- Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ..
- Outils complémentaires:
- Spark, Shark, Storm, BigTop, Zebra
- de développement : Cascading, Scalding, Flink, Pachyderm
- d'analyse : RHadoop, Hama, Chukwa, kafka
Installation et configuration
- Trois modes d'installation : local, pseudo-distribué, distribué
- Première installation.Mise en oeuvre avec un seul noeud Hadoop.
- Configuration de l'environnement,étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
- Création des users pour les daemons hdfs et yarn,droits d'accès sur les exécutables et répertoires.
- Lancement des services.
- Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..
- Gestion de la grappe, différentes méthodes :
- ligne de commandes, API Rest, serveur http intégré, APIS natives
- Exemples en ligne de commandes avec hdfs, yarn, mapred
- Présentation des fonctions offertes par le serveur http
- Organisation et configuration d'une grappe
Administration Hadoop
- Outils complémentairs à yarn et hdfs :
- jConsole, jconsole yarn
- suivi de charges
- journaux
- Gestion des noeuds,
- Accès JMX, mise en oeuvre d'un client JMX
- Administration HDFS
- stockage des fichiers, fsck, dfsadmin,
- gestion centralisée de caches avec Cacheadmin
Sécurité
- Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode. Sécurisation de yarn avec la mise en oeuvre d'un proxy et d'un Linux Container Executor.
Exploitation
- Supervision des éléments par le NodeManager. Visualisation des alertes en cas d'indisponibilité d'un noeud. Configuration des logs avec log4j.
|