Hortonworks Developer

Partager par email

×

Cette formation présente les grands outils de l’écosystème Hadoop en se focalisant plus spécifiquement sur Pig et Hive.

Le principal objectif est le développement de compétences de data analyst orientées accès et traitement des données sans nécessairement avoir un fort background technique.

Cette formation présente les grands outils de l’écosystème Hadoop en se focalisant plus spécifiquement sur Pig et Hive.

Le principal objectif est le développement de compétences de data analyst orientées accès et traitement des données sans nécessairement avoir un fort background technique.

Cette formation présente les grands outils de l’écosystème Hadoop en se focalisant plus spécifiquement sur Pig et Hive.

Le principal objectif est le développement de compétences de data analyst orientées accès et traitement des données sans nécessairement avoir un fort background technique.

Code Titre Durée Prix HT
horton01 Hortonworks Developer 5 jours Nous consulter

Objectifs

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender l’architecture de Hadoop
  • Expérimenter les outils d’exploration et d’analyse avancée de données

Public

  • Analyste
  • Statisticien
  • Développeur

Pré-requis

Connaissances de base en scripting (SQL, Python, R) ou en programmation

Post-Formation

Méthodes

Formation mêlant des apports théoriques à de nombreux travaux pratiques sous forme d’exercices d’application et d’analyse de uses cases métier complétés des retours d’expérience du formateur.

Programme

COMPRENDRE HADOOP

  • L’architecture de Hadoop
  • The Hortonworks Data Platform (HDP)

LE SYSTEME DE FICHIERS DISTRIBUE HDFS

  • Architecture fonctionnelle de HDFS
  • Exercice d’interaction en ligne de commande avec HDFS

ALIMENTER HDFS EN DONNEES

  • Prise en main de l’outil Flume
  • Prise en main de l’outil Sqoop
  • Application de ces deux outils d’import et d’export des données

LE FRAMEWORK MAPREDUCE

  • Architecture et fonctionnement général de MapReduce
  • Exemples d’utilisation d’un job MapReduce
  • Présentation de Hadoop Streaming

INTRODUCTION A PIG

  • Types et mots-clés dans Pig
  • Exploration de données avec Pig

PROGRAMMATION PIG AVANCEE

  • Mots-clés et fonctionnalités avancées dans Pig
  • Jointures dans Pig
  • Astuces d’optimisation de scripts Pig
  • Analyse de cas d’usages métier divers avec Pig

PROGRAMMATION HIVE

  • Types et mots-clés dans Hive
  • Concept de table et base de données dans Hive
  • Présentation et explication des types de jointures
  • Démonstration de jointures
  • Analyse de cas d’usages métier

UTILISER HCATALOG

  • Fonctionnement et utilisation de Hcatalog
  • Démonstration du fonctionnement de Hcatalog

PROGRAMMATION HIVE AVANCEE

  • Les vues dans Hive
  • Les différents formats de stockage des tables Hive
  •  Optimisation de scripts Hive
  • Illustration des fonctions avancées

APACHE SPARK

  • Introduction à Spark
  • Programmation Spark (RDD, programmation fonctionnelle)
  • Ecriture d’un job Spark en Python
  • Spark SQL et les DataFrames
  • Utilisation de Spark SQL et des DataFrames sur des tables Hive et des fichiers HDFS

HADOOP  ET YARN

  • Architecture de YARN
  • Démonstration d’une application YARN

CREER ET UTILISER UN WORKFLOW OOZIE

  • Workflow et coordinateur Oozie
  • Actions possibles avec Oozie

Environnement

Mot-clés

Commander