Combinatorial Inference in Geometric Data Analysis

Vue d’ensemble

Combinatorial Inference in Geometric Data Analysis propose une approche combinatoire de l’inférence statistique adaptée aux nuages de points euclidiens issus des méthodes d’Analyse Géométrique des Données (AGD). Le livre fournit un cadre unifié pour les tests de typicalité (comparer un groupe à une population de référence) et les tests d’homogénéité (comparer plusieurs sous-nuages), en s’appuyant sur la permutation combinatoire plutôt que sur des hypothèses distributionnelles paramétriques.

Auteurs et éditeur

Brigitte Le Roux, Solène Bienaise, Jean-Luc Durand — Chapman & Hall/CRC, Computer Science & Data Analysis Series, 2019.
Page de l’éditeur

Table des matières

	Chapitre	Page
	Préface	vii
	Symboles	xi
1	Introduction	1
	1.1 Sur l’inférence combinatoire	1
	1.2 Sur l’Analyse Géométrique des Données	4
	1.3 Sur l’analyse inductive des données	5
	1.4 Aspects computationnels	6
2	Nuage de points dans un espace géométrique	9
	2.1 Statistiques de base	10
	2.2 Structure de covariance d’un nuage	14
	2.3 Distance de Mahalanobis et ellipsoïdes principaux	20
	2.4 Partition d’un nuage	25
3	Tests combinatoires de typicalité	29
	3.1 Le problème de typicalité	29
	3.2 Test combinatoire de typicalité pour le point moyen	32
	3.3 Cas unidimensionnel : test de typicalité pour la moyenne	45
	3.4 Test combinatoire de typicalité pour la variance	49
	3.5 Inférence combinatoire en AGD	51
	3.6 Calculs avec R et le logiciel Coheris SPAD	55
4	Test géométrique de typicalité	65
	4.1 Principe du test	65
	4.2 Test géométrique de typicalité pour le point moyen	69
	4.3 Cas unidimensionnel : typicalité pour la moyenne	86
	4.4 Cas d’un plan avec deux mesures répétées	90
	4.5 Autres méthodes	92
	4.6 Calculs avec R et le logiciel Coheris SPAD	97
5	Tests de permutation pour l’homogénéité	107
	5.1 Le problème d’homogénéité	107
	5.2 Principe des tests combinatoires d’homogénéité	108
	5.3 Homogénéité de groupes indépendants : cas général	109
	5.4 Homogénéité de deux groupes indépendants	116
	5.5 Cas d’un plan avec mesures répétées	133
	5.6 Autres méthodes	140
	5.7 Calculs avec R et le logiciel Coheris SPAD	141
6	Études de cas	153
	6.1 L’étude Parkinson	156
	6.2 Les députés et la mondialisation	170
	6.3 Les banquiers centraux européens	188
	6.4 Tests cognitifs et éducation	200
	Bibliographie	245
	Index des auteurs	250
	Index des sujets	252

Documents complémentaires

Données et scripts R simplifiés

Les scripts R simplifiés ci-dessous calculent les seuils observés (p-values) et les régions de compatibilité pour les chapitres 3, 4 et 5.

Chapitre 3 — Tests combinatoires de typicalité

Le test combinatoire de typicalité consiste à comparer un groupe d’observations à une population de référence en prenant comme statistique de test soit le carré de la distance de Mahalanobis entre points moyens, soit la variance du nuage.

Cas multidimensionnel (nuages euclidiens) — données de référence (exemple « Cible ») : Target_reference.txt ; données du groupe : Target_group.txt ; script R des pages 55 à 58 : Combinatorial_Typicality.R.
Cas unidimensionnel (variable numérique) — le script R précédent appliqué à un nuage unidimensionnel procède au test avec pour statistique de test le carré de l’écart calibré entre les moyennes, et non au test directionnel basé sur la différence des moyennes.

Chapitre 4 — Test géométrique de typicalité

Le test géométrique de typicalité consiste à comparer le point moyen d’un nuage euclidien à un point de référence en prenant comme statistique de test le carré de la distance de Mahalanobis entre points. Ce test s’applique aussi à un plan avec deux mesures répétées, les données de base étant alors le « protocole des différences ».

Cas multidimensionnel (nuages euclidiens) — données de l’exemple « Cible » : Target.txt ; script R des pages 97 à 101 : Geometric_Typicality.R.
Cas unidimensionnel (variable numérique) — le script R précédent appliqué à un nuage unidimensionnel donne les résultats correspondant à l’écart calibré entre la moyenne du groupe et la moyenne de référence.
Plan avec deux mesures répétées — données de Student : Student.txt.

Chapitre 5 — Tests d’homogénéité

Les tests d’homogénéité présentés dans ce chapitre consistent à comparer plusieurs sous-nuages en prenant comme statistique de test la M-variance des points moyens des sous-nuages — c’est-à-dire la variance calculée à partir de la distance de Mahalanobis entre points. Nous étudions le cas d’un plan avec plusieurs groupes indépendants et celui avec des mesures répétées. Dans le cas de plusieurs groupes indépendants, plusieurs systèmes de permutation des données sont envisagés selon que la comparaison est globale, partielle ou spécifique (voir pages 109-110).

Données (p. 142) : Target_4.txt
Script R des pages 142–147 (comparaison partielle ou spécifique de deux groupes indépendants) : Homogeneity.R

Scripts R complets et interfacés SPAD

Les scripts R complets permettent la mise en œuvre intégrale des méthodes. Chaque archive ZIP contient trois scripts (« main », « parameters », « core »), des fichiers de données et un mode d’emploi.

Tests combinatoires de typicalité (chapitre 3) : CIGDA_combi.zip
Tests combinatoires de typicalité — script interfacé SPAD : CIGDA_Comb-v1.1.R
Test géométrique de typicalité (chapitre 4) — script interfacé SPAD : CIGDA_Geo-v1.R
Tests d’homogénéité (chapitre 5) — script interfacé SPAD : CIGDA_Homog-v1.R

Études de cas (chapitre 6)

Pour chaque étude de cas, les données sont disponibles en format Excel et un projet SPAD permet de reproduire les analyses.

L’étude Parkinson — données : Parkinson.xls ; projet SPAD : The Parkinson Study
Les députés et la mondialisation — données : MPs&Globalisation.xls ; projet SPAD : MPs-Globalisation
Les banquiers centraux européens — données et projet SPAD sur demande auprès de Frédéric Lebaron.
Tests cognitifs et éducation — données : CognitiveTests.xls ; projet SPAD : Cognitive Study