Spark Mise en oeuvre et programmation | FormaFast Consulting | BigData | WebScrap | Seo | Database

Accueil Formations Melting-Pot Spark Mise en oeuvre et programmation

Spark Mise en oeuvre et programmation

Code	Titre	Durée	Prix HT
CB019	Spark Mise en oeuvre et programmation	3 jours	Nous consulter
Objectifs Chefs de projet, data scientists, développeurs.
Public Savoir mettre en oeuvre Spark pour optimiser des calculs.
Pré-requis Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques
Post-Formation
Méthodes 50% Pratique 50% Théorique
Programme Introduction Présentation Spark, origine du projet, apports, principe de fonctionnement Langages supportés. Premiers pas Utilisation du shell Spark avec Scala ou Python Gestion du cache Règles de développement Mise en pratique en Java et Python Notion de contexte Spark Différentes méthodes de création des RDD: depuis un fichier texte, un stockage externe. Manipulations sur les RDD (Resilient Distributed Dataset) Fonctions, gestion de la persistence. Cluster Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2 Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud. Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job Mise en oeuvre avec Spark et Amazon EC2 Soumission de jobs, supervision depuis l'interface web Intégration hadoop Travaux pratiques avec YARN Création et exploitation d'un cluster Spark/YARN. Support Cassandra Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark. Exécution de travaux Spark s'appuyant sur une grappe Cassandra. Spark SQL Objectifs : traitement de données structurées,. Optimisation des requêtes. Mise en oeuvre de Spark SQL. Comptabilité Hive Travaux pratiques: en ligne de commande avec Spark SQL, avec un pilote JDBC. L'API Dataset : disponible avec Scala ou Java. Collections de données distribuées. Exemples. Streaming Objectifs , principe de fonctionnement : stream processing. Source de données : HDFS, Flume, Kafka, ... Notion de StreamingContexte, DStreams, démonstrations Travaux pratiques : traitement de flux DStreams en Java. MLib Fonctionnalités : Machine Learning avec Spark, Algorithmes standards, Gestion de la persistence, Statistiques. Support de RDD. Mise en oeuvre avec les DataFrames. GraphX Fourniture d'algorithmes, d'opérateurs simples pour des calcul statistiques sur les graphes Travaux pratiques : exemples d'opérations sur les graphes.
Environnement
Mot-clés CB019 Spark Mise en oeuvre et programmation

Formafast Consulting

1, Rue Mozart, 20250 Casablanca, Maroc
Phone : +212 6 31 10 82 16 WhatsApp/Telegram
E-mail: contact@formafast.com