Apache Mahout : analyse de données

Partager par email

×

Code Titre Durée Prix HT
CB032 Apache Mahout : analyse de données 2 jours Nous consulter

Objectifs

Comprendre le fonctionnement de Mahout, connaître l'architecture et savoir implémenter les algorithmes de Machine Learning en local ou en environnement distribué.

Public

Chefs de projet, architectes, développeurs, data-scientists souhaitant utiliser Mahout et mettre en oeuvre des algorithmes d'apprentissage distribués.

Pré-requis

Connaissance d'un langage de développement objet et connaissances générales sur le Bigdata, le data-mining, l'analyse de données.

Post-Formation

Méthodes

50% Pratique 50% Théorique

Programme

Introduction

  • Présentation Mahout.
  • Origine du projet, licence, positionnement dans l'offre BigData et Machine Learning : Hadoop, Spark,..
  • Fonctionnalités.
  • Définitions : apprentissage supervisé, apprentissage automatique
  • Arbres de décision, de régression, régression automatique
  • Classifieurs. Scoring

Architecture

  • Principe de fonctionnement.
  • Sources de données, format de stockage des données,
  • Génération de recommandations, traitement, filtrage
  • Mode local ou distribué.

Mise en oeuvre

  • Installation en mode autonome .
  • Exemples de base : génération de recommandations, traitement, filtrage
  • Présentation des algorithmes les plus courants.
  • Compatibilité avec Hadoop Yarn, Spark, H2O, Flink
  • Installation en mode distribué sur une ferme Spark.
  • Premiers pas avec le shell interactif REPL
  • Exemple avec une classification bayesienne naïve

Environnement


Mot-clés

CB032 Apache Mahout : analyse de données

Commander