Brigitte Le Roux English

Combinatorial Inference in Geometric Data Analysis

Vue d’ensemble

Combinatorial Inference in Geometric Data Analysis propose une approche combinatoire de l’inférence statistique adaptée aux nuages de points euclidiens issus des méthodes d’Analyse Géométrique des Données (AGD). Le livre fournit un cadre unifié pour les tests de typicalité (comparer un groupe à une population de référence) et les tests d’homogénéité (comparer plusieurs sous-nuages), en s’appuyant sur la permutation combinatoire plutôt que sur des hypothèses distributionnelles paramétriques.

Auteurs et éditeur

Brigitte Le Roux, Solène Bienaise, Jean-Luc Durand — Chapman & Hall/CRC, Computer Science & Data Analysis Series, 2019.
Page de l’éditeur

Table des matières

ChapitrePage
Préfacevii
Symbolesxi
1Introduction1
1.1 Sur l’inférence combinatoire1
1.2 Sur l’Analyse Géométrique des Données4
1.3 Sur l’analyse inductive des données5
1.4 Aspects computationnels6
2Nuage de points dans un espace géométrique9
2.1 Statistiques de base10
2.2 Structure de covariance d’un nuage14
2.3 Distance de Mahalanobis et ellipsoïdes principaux20
2.4 Partition d’un nuage25
3Tests combinatoires de typicalité29
3.1 Le problème de typicalité29
3.2 Test combinatoire de typicalité pour le point moyen32
3.3 Cas unidimensionnel : test de typicalité pour la moyenne45
3.4 Test combinatoire de typicalité pour la variance49
3.5 Inférence combinatoire en AGD51
3.6 Calculs avec R et le logiciel Coheris SPAD55
4Test géométrique de typicalité65
4.1 Principe du test65
4.2 Test géométrique de typicalité pour le point moyen69
4.3 Cas unidimensionnel : typicalité pour la moyenne86
4.4 Cas d’un plan avec deux mesures répétées90
4.5 Autres méthodes92
4.6 Calculs avec R et le logiciel Coheris SPAD97
5Tests de permutation pour l’homogénéité107
5.1 Le problème d’homogénéité107
5.2 Principe des tests combinatoires d’homogénéité108
5.3 Homogénéité de groupes indépendants : cas général109
5.4 Homogénéité de deux groupes indépendants116
5.5 Cas d’un plan avec mesures répétées133
5.6 Autres méthodes140
5.7 Calculs avec R et le logiciel Coheris SPAD141
6Études de cas153
6.1 L’étude Parkinson156
6.2 Les députés et la mondialisation170
6.3 Les banquiers centraux européens188
6.4 Tests cognitifs et éducation200
Bibliographie245
Index des auteurs250
Index des sujets252

Documents complémentaires

Données et scripts R simplifiés

Les scripts R simplifiés ci-dessous calculent les seuils observés (p-values) et les régions de compatibilité pour les chapitres 3, 4 et 5.

Chapitre 3 — Tests combinatoires de typicalité

Le test combinatoire de typicalité consiste à comparer un groupe d’observations à une population de référence en prenant comme statistique de test soit le carré de la distance de Mahalanobis entre points moyens, soit la variance du nuage.

Chapitre 4 — Test géométrique de typicalité

Le test géométrique de typicalité consiste à comparer le point moyen d’un nuage euclidien à un point de référence en prenant comme statistique de test le carré de la distance de Mahalanobis entre points. Ce test s’applique aussi à un plan avec deux mesures répétées, les données de base étant alors le « protocole des différences ».

Chapitre 5 — Tests d’homogénéité

Les tests d’homogénéité présentés dans ce chapitre consistent à comparer plusieurs sous-nuages en prenant comme statistique de test la M-variance des points moyens des sous-nuages — c’est-à-dire la variance calculée à partir de la distance de Mahalanobis entre points. Nous étudions le cas d’un plan avec plusieurs groupes indépendants et celui avec des mesures répétées. Dans le cas de plusieurs groupes indépendants, plusieurs systèmes de permutation des données sont envisagés selon que la comparaison est globale, partielle ou spécifique (voir pages 109-110).

Scripts R complets et interfacés SPAD

Les scripts R complets permettent la mise en œuvre intégrale des méthodes. Chaque archive ZIP contient trois scripts (« main », « parameters », « core »), des fichiers de données et un mode d’emploi.

Études de cas (chapitre 6)

Pour chaque étude de cas, les données sont disponibles en format Excel et un projet SPAD permet de reproduire les analyses.

  1. L’étude Parkinson — données : Parkinson.xls ; projet SPAD : The Parkinson Study
  2. Les députés et la mondialisation — données : MPs&Globalisation.xls ; projet SPAD : MPs-Globalisation
  3. Les banquiers centraux européens — données et projet SPAD sur demande auprès de Frédéric Lebaron.
  4. Tests cognitifs et éducation — données : CognitiveTests.xls ; projet SPAD : Cognitive Study