Objectifs
S’approprier les outils, et les méthodes permettant de rendre son processus d’analyse de données sous R, aisé, reproductible, et performant.
Pré-requis
Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation R – Prise en main, analyses statistiques et graphiques
Méthode
Pédagogie active mêlant exposés, exercices et applications pratiques dans le logiciel R.
Programme
- Organiser son travail sous R (2h)
- Manipuler facilement ses données avec le package dplyr (3h)
- Manipulation des variables catégorielles avec le package forecats (1h)
- Manipuler les chaînes de caractères avec le package stringr (1h)
- Manipuler des données de date : utilisation du package lubridate (1h)
- Assemblage de tables (2h)
- Réaliser des représentations graphiques performantes avec le package ggplot2 (4h)
- Générer dynamiquement son rapport d’analyse avec rmarkdown (4h)
- Introduction à la programmation fonctionnelle avec le package purrr (2h)
- Travailler en projet R : notion de working directory, workspace, history
- Architecture de son projet R : data, plots, images, scripts, ...
- Bonnes pratiques pour la création de fichiers de données
- Importation et exportation de fichiers avec le package here
- Mettre à jour ses packages
- Mettre à jour R et R Studio
- Manipuler facilement ses données avec le package dplyr (3h)
- Introduction au package tidyverse et à la notion de pipe
- Filtrer des lignes avec la fonction filter()
- Sélectionner des colonnes (variable) avec la fonction select()
- Création de nouvelles variables avec la fonction mutate()
- Renommer ses variable avec la fonction rename()
- Calcul de paramètres par sous groupes : fonctions group_by() et summarise()
- Passage du format wide au format long
- Exercices
- Manipulation des variables catégorielles avec le package forecats (1h)
- Inspecter les variables catégorielles avec les fonctions levels(), fct_count et fct_unique
- Modifier l’ordre des modalités
- Modifier le nom des modalités
- Exercices
- Manipuler les chaînes de caractères avec le package stringr (1h)
- Détection de patterns
- Découpage
- Gestion des longueurs
- Remplacement
- Exercices
- Manipuler des données de date : utilisation du package lubridate (1h)
- Convertir les données au format YYYY-MM-DD et HH:MM:SS
- Décomposer les éléments d’année, de mois et de jour
- Calculer des différences de dates et les exprimer en jours ou heures
- Exercices
- Assemblage de tables (2h)
- Les différentes jointures (par colonne): left join, right join, inner join et full join
- Assemblage par lignes
- Exemple d’applications pour l’analyse de données
- Exercices
- Réaliser des représentations graphiques performantes avec le package ggplot2 (4h)
- Le principe des couches successives de ggplot2
- Réalisation des graphiques de base : scatterplot, barplots, line plot, boxplots
- Gestion des couleurs, titres, axes et légendes
- Représentation des séries temporelles
- Utilisation du format long et facetting
- Ajouter du texte sur un graphique (ex : équation)
- Exporter son graphique : format et résolution
- Utilisation des addins esquisse et Colour Picker
- Générer dynamiquement son rapport d’analyse avec rmarkdown (4h)
- Principe, formats de sorties (html, docx, pdf)
- Les différents éléments d’un fichier Rmd : en-tête, chunk, ...
- Gestion des éléments de texte : gras, italique, titre
- Gestion des tables
- Gestion des images
- Gestion des graphiques
- Gestion des options des éléments de code
- Gestion de la table des matières et numérotation
- Les rapports paramétrés : automatisation des rapports d’analyse par sous groupe
- Introduction à la programmation fonctionnelle avec le package purrr (2h)
- Les list
- Les fonctions map()
- Nested data
- Exercices