Programme
Introduction- Présentation Spark, origine du projet,
- apports, principe de fonctionnement
- Langages supportés.
Premiers pas- Utilisation du shell Spark avec Scala ou Python
- Gestion du cache
Règles de développement - Mise en pratique en Java et Python
- Notion de contexte Spark
- Différentes méthodes de création des RDD:
- depuis un fichier texte, un stockage externe.
- Manipulations sur les RDD (Resilient Distributed Dataset)
- Fonctions, gestion de la persistence.
Cluster- Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
- Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud.
- Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
- Mise en oeuvre avec Spark et Amazon EC2
- Soumission de jobs, supervision depuis l'interface web
Intégration hadoop- Travaux pratiques avec YARN
- Création et exploitation d'un cluster Spark/YARN.
Support Cassandra- Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark.
- Exécution de travaux Spark s'appuyant sur une grappe Cassandra.
Spark SQL- Objectifs : traitement de données structurées,.
- Optimisation des requêtes.
- Mise en oeuvre de Spark SQL.
- Comptabilité Hive
- Travaux pratiques:
- en ligne de commande avec Spark SQL,
- avec un pilote JDBC.
- L'API Dataset :
- disponible avec Scala ou Java.
- Collections de données distribuées.
- Exemples.
Streaming- Objectifs , principe de fonctionnement : stream processing.
- Source de données : HDFS, Flume, Kafka, ...
- Notion de StreamingContexte, DStreams, démonstrations
- Travaux pratiques : traitement de flux DStreams en Java.
MLib- Fonctionnalités : Machine Learning avec Spark,
- Algorithmes standards,
- Gestion de la persistence,
- Statistiques.
- Support de RDD.
- Mise en oeuvre avec les DataFrames.
GraphX- Fourniture d'algorithmes, d'opérateurs simples
- pour des calcul statistiques sur les graphes
- Travaux pratiques :
- exemples d'opérations sur les graphes.
|