IBM InfoSphere DataStage - Parallel Framework

Partager par email

×

Dans un environnement toujours plus concurrentiel, disposer rapidement d’informations fiables pour prendre les bonnes décisions au bon moment est devenu un enjeu crucial. Mais au regard des flux toujours plus abondants d’informations hétérogènes ("Big Data"), il devient indispensable pour cela de disposer d’outils extrêmement performants. Avec InfoSphere DataStage, IBM propose une solution permettant de réaliser en parallèle des travaux d’import et de transformation de données et ainsi d’alimenter des Data Warehouse en des temps records. Les développeurs DataStage participant à cette formation apprendront à mettre en oeuvre des solutions plus performantes en tirant profit de cette "force" de l’ETL d’IBM.

Code Titre Durée Prix HT
KM404G IBM InfoSphere DataStage - Parallel Framework 4 jours Nous consulter

Objectifs

  • Comprendre l'architecture de traitement parallèle ainsi que les environnements de développement et d'exécution
  • Connaître les processus de compilation et d'exécution des travaux
  • Être capable d’optimiser la phase de tri et de mise en mémoire tampon dans le cas de travaux en parallèle
  • Comprendre comment utiliser les types de données liés au cadre parallèle
  • Savoir créer des composants de travaux réutilisables
  • Acquérir les connaissances nécessaires pour générer des étapes personnalisées intégrant des fonctions de transformation
  • Être en mesure de traiter des données XML dans les travaux DataStage
  • Savoir concevoir une tâche qui traite une base de données de schéma en étoile à l'aide de dimensions à évolution lente de Types 1 et 2

Public

Développeurs expérimentés sur DataStage

Pré-requis

  • Avoir suivi la formation "IBM InfoSphere DataStage Essentials v11.5" (BI202) ou connaissances équivalentes
  • Avoir au moins un an d'expérience dans le développement de tâches parallèles avec DataStage

Post-Formation

Méthodes

Alternance rapide de points de cours et d'exercices appliqués.

Programme

Introduction à l'architecture du Parallel Framework

  • Présentation de l'architecture
  • Présentation du pipeline et des partitions
  • Rôle du fichier de configuration
  • Conception d'une tache de création de tests de données

Compilation et exécution

  • Les principales parties du fichier de configuration
  • Le process de compilation
  • L'OSH généré par le process de compilation
  • Rôle et principales parties du Score

Partitionnement et collecte de données

  • Le fonctionnement du partitionnement dans le framework
  • Affichage des partitions dans le Score
  • Sélection des algorithmes de partitionnement
  • Générer des séquences de nombres (clés de substitution), dans un environnement parallèle partitionné

Tris de données

  • Trier les données
  • Trouver des tris dans le Score
  • Réduire le nombre de tris
  • Optimiser l'emploi des jointures
  • Utiliser Trier les étapes pour déterminer la dernière rangée dans un groupe
  • Décrire la clé de tri et la clé logique de partitionnement

Gestion des buffers en exécution parallèle

  • Fonctionnement des buffers
  • Optimisation des buffers

Types de données

  • Virtual Data Sets
  • Les schémas
  • Conversion de types
  • Gestion des données externes
  • Gestion de la valeur nulle
  • Travailler avec des données complexes

Composants réutilisables

  • Créer un schéma de fichier
  • Lecture séquentielle d'un fichier à l'aide d'un schéma
  • Utiliser Runtime Column Propagation (RCP)
  • Créer et utiliser des containers

Optimisation équilibrée

  • Activer la fonctionnalité d'optimisation
  • Description des processus d'optimisation
  • Passage en revue des différentes options d'optimisation
  • Optimisation des traitement Hadoop HDFS
  • Limitations

Environnement

Windows

Mot-clés

IBM InfoSphere Advanced DataStage - Parallel Framework

Commander