Spark Mise en oeuvre et programmation

Share by email

×

Code Title Duration Price HT
CB019 Spark Mise en oeuvre et programmation 3 days Consult us

Objectives

Chefs de projet, data scientists, développeurs.

Public

Savoir mettre en oeuvre Spark pour optimiser des calculs.

Prerequisites

Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques

Post-Training

Methods

50% Pratique 50% Théorique

Program

Introduction

  • Présentation Spark, origine du projet,
  • apports, principe de fonctionnement
  • Langages supportés.

Premiers pas

  • Utilisation du shell Spark avec Scala ou Python
  • Gestion du cache

Règles de développement    

  • Mise en pratique en Java et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD:
  • depuis un fichier texte, un stockage externe.
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistence.

Cluster

  • Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
  • Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud.
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l'interface web

Intégration hadoop

  • Travaux pratiques avec YARN
  • Création et exploitation d'un cluster Spark/YARN.

Support Cassandra

  • Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark.
  • Exécution de travaux Spark s'appuyant sur une grappe Cassandra.

Spark SQL

  • Objectifs : traitement de données structurées,.
  • Optimisation des requêtes.
  • Mise en oeuvre de Spark SQL.
  • Comptabilité Hive
  • Travaux pratiques:
  • en ligne de commande avec Spark SQL,
  • avec un pilote JDBC.
  • L'API Dataset :
  • disponible avec Scala ou Java.
  • Collections de données distribuées.
  • Exemples.

Streaming

  • Objectifs , principe de fonctionnement : stream processing.
  • Source de données : HDFS, Flume, Kafka, ...
  • Notion de StreamingContexte, DStreams, démonstrations
  • Travaux pratiques : traitement de flux DStreams en Java.

MLib

  • Fonctionnalités : Machine Learning avec Spark,
  • Algorithmes standards,
  • Gestion de la persistence,
  • Statistiques.
  • Support de RDD.
  • Mise en oeuvre avec les DataFrames.

GraphX

  • Fourniture d'algorithmes, d'opérateurs simples
  • pour des calcul statistiques sur les graphes
  • Travaux pratiques :
  • exemples d'opérations sur les graphes.

Environment


Tags

CB019 Spark Mise en oeuvre et programmation

Order