Vous êtes ici : Accueil > Statistique > Formation > Analyse des données (6) > Détection d’anomalies – Outlier Detection

Formation Détection d’anomalies – Outlier Detection


Objectifs

Approfondir la connaissance de la détection d’anomalies dans un contexte de données numériques et/ou fonctionnelles à l’aide de méthodes principalement non-supervisées

Public

Data Scientists ou statisticiens, chercheurs, ingénieurs, ...

Pré-requis

Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont les formations Statistique descriptive (exploratoire) : savoir décrire des observations et Statistique décisionnelle (inférentielle) : savoir décider au vu des observations

Méthode

Pédagogie active mêlant exposés, exercices et applications pratiques.
Chaque participant pourra mettre en oeuvre les applications dans le logiciel de son choix parmi JMP ou R.

Programme

- Introduction
  • Qu’est-ce qu’une anomalie ? une valeur influente ? une valeur extrême ?
  • Les différentes motivations à la détection d’anomalies
  • La notion de robustesse

- Les méthodes univariées
  • La règle du k-sigma et test de Grubbs
  • Règles du boxplot
  • Tests en fonction de la distribution

- Les méthodes multivariées - généralités
  • Les grandes approches dans la détection d’anomalies
  • Évaluation des méthodes
    • Caractéristiques souhaitées
    • Métriques
    • Contributeurs ou signature des défauts

- Les méthodes multivariées basées sur un modèle probabiliste
  • T2 de Hotelling, la distance de Mahalanobis et sa version robuste
  • Notion de profondeur et notion d’angles

- Les méthodes multivariées basées sur la détermination d’un sous-espace
  • L’ACP et sa version robuste
  • Les réseaux de neurones

- Les méthodes multivariées basées sur la notion de proximité
  • La classification non supervisée
  • Le LOF basé sur la densité

- Les méthodes pour des données fonctionnelles
  • Introduction au contexte de données fonctionnelles
  • L’analyse de données fonctionnelles
    • Méthode de lissage
      • Spline cubique
      • Polynômes locaux
    • Réduction de dimension
      • Grandeurs statistiques (moyenne…)
      • Décomposition en coefficients d’ondelettes
  • Méthodes de détection d’anomalies dans un contexte univarié
  • Méthodes de détection d’anomalies dans un contexte multivarié

- Les méthodes pour des données en HDLSS (grande dimension, faible taille d’échantillonnage)
  • Présentation des challenges induits par ce contexte
  • Les principales méthodes