Vous êtes ici : Accueil > Statistique > Formation > Logiciels de Statistique (13) > R pour la data analyse

Formation R pour la data analyse


Objectifs

S’approprier les outils, et les méthodes permettant de rendre son processus d’analyse de données sous R, aisé, reproductible, et performant.

Pré-requis

Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation R – Prise en main, analyses statistiques et graphiques

Méthode

Pédagogie active mêlant exposés, exercices et applications pratiques dans le logiciel R.

Programme

- Organiser son travail sous R (2h)
  • Travailler en projet R : notion de working directory, workspace, history
  • Architecture de son projet R : data, plots, images, scripts, ...
  • Bonnes pratiques pour la création de fichiers de données
  • Importation et exportation de fichiers avec le package here
  • Mettre à jour ses packages
  • Mettre à jour R et R Studio

- Manipuler facilement ses données avec le package dplyr (3h)
  • Introduction au package tidyverse et à la notion de pipe
  • Filtrer des lignes avec la fonction filter()
  • Sélectionner des colonnes (variable) avec la fonction select()
  • Création de nouvelles variables avec la fonction mutate()
  • Renommer ses variable avec la fonction rename()
  • Calcul de paramètres par sous groupes : fonctions group_by() et summarise()
  • Passage du format wide au format long
  • Exercices

- Manipulation des variables catégorielles avec le package forecats (1h)
  • Inspecter les variables catégorielles avec les fonctions levels(), fct_count et fct_unique
  • Modifier l’ordre des modalités
  • Modifier le nom des modalités
  • Exercices

- Manipuler les chaînes de caractères avec le package stringr (1h)
  • Détection de patterns
  • Découpage
  • Gestion des longueurs
  • Remplacement
  • Exercices

- Manipuler des données de date : utilisation du package lubridate (1h)
  • Convertir les données au format YYYY-MM-DD et HH:MM:SS
  • Décomposer les éléments d’année, de mois et de jour
  • Calculer des différences de dates et les exprimer en jours ou heures
  • Exercices

- Assemblage de tables (2h)
  • Les différentes jointures (par colonne): left join, right join, inner join et full join
  • Assemblage par lignes
  • Exemple d’applications pour l’analyse de données
  • Exercices

- Réaliser des représentations graphiques performantes avec le package ggplot2 (4h)
  • Le principe des couches successives de ggplot2
  • Réalisation des graphiques de base : scatterplot, barplots, line plot, boxplots
  • Gestion des couleurs, titres, axes et légendes
  • Représentation des séries temporelles
  • Utilisation du format long et facetting
  • Ajouter du texte sur un graphique (ex : équation)
  • Exporter son graphique : format et résolution
  • Utilisation des addins esquisse et Colour Picker

- Générer dynamiquement son rapport d’analyse avec rmarkdown (4h)
  • Principe, formats de sorties (html, docx, pdf)
  • Les différents éléments d’un fichier Rmd : en-tête, chunk, ...
  • Gestion des éléments de texte : gras, italique, titre
  • Gestion des tables
  • Gestion des images
  • Gestion des graphiques
  • Gestion des options des éléments de code
  • Gestion de la table des matières et numérotation
  • Les rapports paramétrés : automatisation des rapports d’analyse par sous groupe

- Introduction à la programmation fonctionnelle avec le package purrr (2h)
  • Les list
  • Les fonctions map()
  • Nested data
  • Exercices