Site ORS Auvergne-Rhône-Alpes

LA BASE DOCUMENTAIRE DE L'ORS AUVERGNE-RHÔNE-ALPES

Un cadre général pour la recherche de groupes homogènes à partir de données épidémiologiques de haute dimension, basé sur la robustesse des groupes : un tutoriel pour l’épidémiologiste.

Auteurs physiques : LEFEVRE (T.), CHAUVIN (P.)
Titre du périodique : REVUE D'EPIDEMIOLOGIE ET DE SANTE PUBLIQUE
Volume, numéro : 63
Numéro du fascicule : 1
Année d'édition : 2015/02
Pagination : 9-19
ISSN : 0398-7620
Résumé : Les épidémiologistes disposent essentiellement de trois grandes sortes d’outils pour traiter leurs données : les tests de comparaisons de moyenne et de proportions, les modèles de régression linéaire ou logistique et les modèles de survie type modèles de Cox. Tous ces outils possèdent leur formulation multivariée, ce qui permet de contrôler un minimum les biais. Il existe cependant tout un ensemble de techniques nativement multivariées reposant sur des hypothèses moins fortes que les techniques statistiques classiques, et qui semblent demeurer sous-estimées ou mal connues. Ces techniques, dites de clustering ou de classification, sont utilisées pour l’identification de groupes homogènes à partir de données, et ce sans a priori sur ces groupes. Elles sont largement utilisées dans des domaines connexes à l’épidémiologie, comme la génétique. Méthodes : La majorité des techniques de clustering nécessitent l’ajustement de paramètres qui leur sont spécifiques. Un paramètre particulièrement critique est le nombre de groupes à découvrir dans les données. Différentes approches existent qui permettent de déterminer le nombre optimal de groupes à découvrir, comme l’approche par la silhouette ou par la robustesse. Les auteurs présentent ici les aspects principaux liés aux techniques de clustering (de quelle façon l’on définit la proximité entre deux observations, comment déterminer le nombre de groupes à découvrir), deux techniques archétypiques (les algorithmes des k moyennes et PAM) et comment les articuler aux méthodes statistiques plus classiques. Résultats : Nous proposons un cadre général de traitement des données à l’aide des techniques de clustering au travers d’un exemple théorique simple puis d’une application sur données réelles. Nous montrons comment déterminer s’il existe des groupes distincts dans les données, déterminer le nombre optimal de groupes, labelliser chaque observation selon le groupe auquel elle appartient, analyser les groupes selon des données séparées, explicatives. Enfin, nous expliquons comment obtenir des groupes consistants en s’affranchissant des problèmes de sensibilité aux conditions initiales. Conclusions : L’utilisation conjointe de techniques de clustering et de méthodes d’ajustement des paramètres de ces techniques permet d’enrichir les outils classiques de l’épidémiologiste. Ces techniques sont nativement multivariées et diffèrent des approches statistiques basées sur les tests d’hypothèses en ce sens qu’elles ne nécessitent aucun a priori sur les données à étudier. (Résumé auteur).
Mots-clés : Donnée statistique, Epidémiologie, Etude, France, Méthodologie, Test statistique
Localisation : ORSRA : 15513, ORSRA

LA BASE DOCUMENTAIRE DE L'ORS AUVERGNE-RHÔNE-ALPES

Un cadre général pour la recherche de groupes homogènes à partir de données épidémiologiques de haute dimension, basé sur la robustesse des groupes : un tutoriel pour l’épidémiologiste.

Les sites de l'ORS Auvergne-Rhône-Alpes

Nos sites partenaires