Formation Analyse de données en environnement Hadoop

Objectifs

Connaitre les fonctionnements d'Hadoop Distributed File System (HDFS) et YARN / MapReduce
Savoir explorer HDFS et suivre l’exécution d’une application YARN
Déterminer les fonctionnements et l'utilisation les différents outils de manipulation des données

Compétences visées

- Comprendre ce que sont Hadoop et YARN
- Connaître les différents outils et les Framework dans un environnement Hadoop
- Appréhender MapReduce
- Comprendre comment exécuter une tâche de MapReduce sur YARN
- Exécuter des modifications en masse avec PIG
- Savoir écrire des requêtes pour HIVE afin d’analyser ses données
- Savoir utiliser Sqoop pour transférer les données entre Hadoop et une base de données relationnelle
- Découverte d’autres briques : automatiser vos process avec Oozie
- Utiliser une base de données No-SQL (HBase)

Public

Data Scientists, Développeurs décisionnels, ...

Pré-requis

Aucun

Méthode pédagogique

Pédagogie active mêlant exposés, exercices et applications pratiques

Programme

- Hadoop

Comprendre Hadoop et son écosystème
Quels impacts de l’arrivée d’Hadoop dans un SI traditionnel ?
Le Hadoop Distributed File System (HDFS)
Introduction aux données dans HDFS
MapReduce Framework et YARN

- Pig

Introduction à Pig
Programmation Pig avancée
Troubleshooting et optimisation avec Pig
Résolution des problèmes avec Pig
Utiliser l’UI Web d’Hadoop
Démo optionnelle : résolution d’un « Failed Job » avec l’UI Web
Echantillonnage de données et débogage
Vue d’ensemble des performances
Comprendre le plan d’exécution
Astuces pour améliorer la performance de vos « Pig Jobs »

- Hive

Programmation Hive
Utilisation de HCatalog
Programmation Hive avancée
Etendre Hive
Transformation de données avec des Scripts personnalisés
Fonctions définies par l’utilisateur
Paramétrer les requêtes
Exercices « Hands-On » : transformation de données avec Hive
Programmation Hive avancée (suite)
Analyse de données et statistiques

- Sqoop

Import/Export avec Sqoop (SGBDR <-> HDFS)
Sqoop, fonctions avancées
Définition de workflow avec Oozie

- Optionnel : (sous réserve de temps)

Introduction à H-Base
Exemple d’ingestion de données avec l’ETL Talend
Créer son propre cluster Hadoop (plateforme de test)

Modalités d'évaluation

Un formulaire d'auto-évaluation proposé en amont de la formation nous permettra d'évaluer votre niveau et de recueillir vos attentes. Ce même formulaire soumis en aval de la formation fournira une appréciation de votre progression.
Des exercices pratiques seront proposés à la fin de chaque séquence pédagogique pour l'évaluation des acquis.
En fin de formation, vous serez amené(e) à renseigner un questionnaire d'évaluation à chaud.
Une attestation de formation vous sera adressée à l'issue de la session.
Trois mois après votre formation, vous recevrez par email un formulaire d'évaluation à froid sur l'utilisation des acquis de la formation.

Qualification du formateur

Les formations DATA VALUE sont animées par des intervenants experts, alliant expérience opérationnelle et compétences pédagogiques reconnues.
Ils disposent de plus de 10 ans d’expérience professionnelle et assurent une veille constante sur les pratiques, outils et normes de leur domaine afin de garantir des contenus actualisés et adaptés aux besoins des stagiaires.

Solutions de financement

Cette formation peut être financée :

dans le cadre du plan de développement des compétences de votre Entreprise
par l’OPCO (opérateur de compétences) de votre Entreprise ou le FAF (Fonds d’Assurance Formation) pour les professionnels libéraux
par France Travail dans le cadre du dispositif de l'Aide Individuelle à la Formation (soumis à accord de votre Agence)
à titre personnel

Délais d'accès et modalités de formation

Les inscriptions peuvent être effectuées jusqu’à 48 heures avant le début de la formation.
Vous pourrez trouver des informations plus détaillées concernant les modalités de nos formations à cette adresse : https://www.datavalue.fr/modalites-acces-formation

Accessibilité

Vous souhaitez suivre notre formation Analyse de données en environnement Hadoop et êtes en situation de handicap ? Merci de nous contacter afin que nous puissions envisager les adaptations nécessaires et vous garantir de bonnes conditions d'apprentissage