Vous êtes ici : Accueil > Big Data > Formation > Data Science (8) > Python sur Spark avec Databricks

Formation Python sur Spark avec Databricks


Objectifs

Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Compétences visées

- Connaître l’environnement Databricks
- Se familiariser avec la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python
- Savoir manipuler de grands volumes de données avec Pyspark
- Mettre en oeuvre des méthodes de Machine Learning avec Pyspark

Public

Développeurs, chefs de projets, data scientists, ...

Pré-requis

Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation Python – Bases et introduction aux librairies scientifiques ou d'avoir atteint par la pratique un niveau équivalent

Méthode pédagogique

Pédagogie active mêlant exposés, exercices et applications pratiques. La formation s’effectue sur un environnement Databricks.

Programme

- Présentation de Databricks

Cette introduction permet de vous initier à l’environnement Databricks et ses outils
  • Historique
  • Différence entre l’utilisation Administrateur et Utilisateur
  • Comment mettre en place un projet sur Databricks/AWS
  • Comment créer un cluster de calcul avec Databricks/AWS
  • Gestion des notebooks, des utilisateurs et des ressources

- Introduction à Spark

Spark est un environnement de travail distribué qui permet d’effectuer des calculs sur des gros volumes de données
  • Rappels sur le Big Data
  • Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX
  • Configurer un Spark Context et une Spark Session
  • Gestion de la mémoire sous Spark

- Présentation de PySpark et l’API Pyspark RDD

Pyspark est l’API Python de Spark
  • Présentation de Pyspark et fonctionnement avec les Java Virtual Machines
  • Présentation de l’API Pyspark RDD et manipulation de données non structurées
  • Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d’un fichier texte structuré) et avec des opérations d’agrégation sur PairRDDs

- Utilisation de l’API Pyspark SQL

L’API Pyspark SQL permet de manipuler des données structurées sous format de Dataframes avec du Python et du SQL
  • Présentation de l’API Pyspark SQL
  • Lecture de fichiers csv, json, parquet et sauvegarde de fichier
  • Nettoyage et manipulation de données
  • Groupby et agrégation
  • Jointure de tables
  • Lien entre SQL et Python
  • Manipulation d’objets Row, et Window
  • Manipulation de dates
  • Utilisation de User Defined Function et de Pandas User Defined functions
  • Présentation de Pyspark Pandas
  • Nombreuses mises en pratique sur des jeux de données

- Introduction au Machine Learning

Rappels des fondamentaux du Machine Learning
  • Qu’est-ce que le Machine Learning? Apprentissages supervisé et non supervisé
  • Compromis Biais Variance
  • Modèles Linéaires
  • Modèles Non Linéaires
  • Modèles ensemblistes
  • Modèles de clustering
  • Métriques et évaluation des performances

- Machine Learning avec PySpark

Les librairies associées à Pyspark MLlib permettent de faire tourner des modèles de Machine Learning dans un environnement de calcul distribué
  • Différence entre MLlib SQL et MLlib RDD
  • Les transformations de processing sur les données et notions de Pipeline
  • Mise en pratique avec des modèles de Machine Learning sur des problématiques de clustering, de classification (données numériques et texte)
  • Evaluation des performances avec Pyspark MLlib
  • Utilisation de la librairie Xgboost sous un environnement Spark
  • Utilisation de Pandas UDF pour faire tourner des modèles scikit-learn ou tensorflow en inférence

Modalités d'évaluation

Un formulaire d'auto-évaluation proposé en amont de la formation nous permettra d'évaluer votre niveau et de recueillir vos attentes. Ce même formulaire soumis en aval de la formation fournira une appréciation de votre progression.
Des exercices pratiques seront proposés à la fin de chaque séquence pédagogique pour l'évaluation des acquis.
En fin de formation, vous serez amené(e) à renseigner un questionnaire d'évaluation à chaud.
Une attestation de formation vous sera adressée à l'issue de la session.
Trois mois après votre formation, vous recevrez par email un formulaire d'évaluation à froid sur l'utilisation des acquis de la formation.

Solutions de financement

Cette formation peut être financée :
  • dans le cadre du plan de développement des compétences de votre Entreprise
  • par l’OPCO (opérateur de compétences) de votre Entreprise ou le FAF (Fonds d’Assurance Formation) pour les professionnels libéraux
  • par France Travail dans le cadre du dispositif de l'Aide Individuelle à la Formation (soumis à accord de votre Agence)
  • à titre personnel

Accessibilité

Vous souhaitez suivre notre formation Python sur Spark avec Databricks et êtes en situation de handicap ? Merci de nous contacter afin que nous puissions envisager les adaptations nécessaires et vous garantir de bonnes conditions d'apprentissage

La formation Python sur Spark avec Databricks dans nos Centres ou en distanciel

  • Tarif : 3 000 € HT
    -10% dès 2 inscrits, -20% à partir de 3

  • Option(s) :
    - Forfait déjeuners : 100€ HT

Nos prochaines sessions

A distance

du 9 au 13 décembre 2024


Lyon

du 27 au 31 mai 2024

du 28 oct. au 1 nov. 2024


Paris

du 24 au 28 juin 2024

du 25 au 29 novembre 2024


Toulouse

du 29 avr. au 3 mai 2024
du 14 au 18 octobre 2024


Bordeaux | Lille | Marseille | Nantes | Nice | Strasbourg

Demandez l'ouverture d'une nouvelle session dès 2 collaborateurs intéressés
Demande d'ouverture d'une nouvelle session
Notre formation Python sur Spark avec Databricks vous intéresse mais vous n'êtes pas disponible aux dates proposées ?
Les lieux d'organisation ne vous conviennent pas ?
Faites-nous part de votre demande d'ouverture d'une nouvelle session dans l'une des 9 villes proposées.
Un conseiller vous confirmera au plus vite la possibilité d'ajout de cette nouvelle session.

    * : champ obligatoire

    Formation souhaitée *

    Ville souhaitée *

    Période de déroulement souhaitée

    Début :      

    Fin :      

    Votre message

    Nombre de participants *

    Vos coordonnées :

    Civilité *

    Votre prénom *

    Votre nom *

    Votre Société *

    Votre email *

    Votre téléphone

    Je souhaite recevoir par email :

    le catalogue formation (2 fois par an)des lettres d'information ponctuelles (6 par an au maximum)

    En soumettant ce formulaire, j'accepte que les informations saisies soient exploitées dans le cadre de la demande d'ouverture d'une nouvelle session de formation interentreprises et de la relation commerciale qui peut en découler

    Pour connaître et exercer vos droits, notamment de retrait de votre consentement à l'utilisation des données collectées par ce formulaire, veuillez consulter notre politique de confidentialité



    Plans d'accès / hébergements
    La formation Python sur Spark avec Databricks dans votre Entreprise ou en distanciel

    • Tarif : Nous consulter

    Demande de devis personnalisé
    Décrivez-nous votre projet au moyen du formulaire ci-dessous et recevez un devis personnalisé dans les meilleurs délais.

      * : champ obligatoire

      Formation souhaitée *

      Dans quel contexte s'inscrit ce projet ?

      Quels sont les objectifs de cette formation ?

      Nombre de participants

      Min : 

      Max :

      Quel est le profil des participants ?

      Quel logiciel est à votre disposition ?

      Une durée est-elle impartie pour cette formation ?

      Min :

      Max :

      Sur quelle période la formation pourrait-elle se dérouler ?

      Début :

      Fin :      

      S’agira-t-il d’une formation en distanciel ou en présentiel et si oui dans quelle ville ? *

      Des cas applicatifs de l’Entreprise pourront-ils être utilisés pour illustrer la formation ?

      Un ou plusieurs stagiaires sont-ils en situation de handicap et si oui des adaptations sont-elles à envisager ?

      Avez-vous des commentaires ?

      Vous pouvez nous adresser un fichier (cahier des charges, ...)

      Vos coordonnées :

      Civilité *

      Votre prénom *

      Votre nom *

      Votre Société *

      Votre email *

      Votre téléphone *

      Je souhaite recevoir par email :

      le catalogue formation (2 fois par an)des lettres d'information ponctuelles (6 par an au maximum)

      En soumettant ce formulaire, j'accepte que les informations saisies soient exploitées dans le cadre de la demande de devis pour une formation intra-entreprise et de la relation commerciale qui peut en découler

      Pour connaître et exercer vos droits, notamment de retrait de votre consentement à l'utilisation des données collectées par ce formulaire, veuillez consulter notre politique de confidentialité



      Date de dernière modification : 24/01/2024