Site ORS Auvergne-Rhône-Alpes

LA BASE DOCUMENTAIRE DE L'ORS AUVERGNE-RHÔNE-ALPES

L’imputation multiple des données manquantes aléatoirement : concepts généraux et présentation d’une méthode Monte-Carlo.

Auteurs moraux : COTTRELL (G.), COT (M.), MARY (J.Y.)
Titre du périodique : REVUE D'EPIDEMIOLOGIE ET DE SANTE PUBLIQUE
Volume, numéro : 57
Numéro du fascicule : 5
Année d'édition : 2009/10
Pagination : 361-372, rés., tabl., fig.
ISSN : 0398-7620
Résumé : La question du traitement statistique d’un jeu de données comportant des données manquantes se pose fréquemment, notamment en épidémiologie, et constitue un champ de recherche méthodologique dynamique. Aujourd’hui, des méthodes existent pour mener de telles analyses statistiques en présence d’observations incomplètes, permettant un réel saut qualitatif en termes de performance des résultats (diminution du biais des estimations et amélioration de la précision de celles-ci) par rapport aux méthodes proposées antérieurement, comme l’analyse du sous-échantillon avec des données complètes. Méthodes : Une des approches est l’imputation multiple, qui consiste à imputer successivement plusieurs valeurs à chaque donnée manquante. Plusieurs jeux de données complétés sont ainsi générés, respectant les caractéristiques de la distribution des données observées (variabilité et corrélations entre les variables). Des analyses standard sont ensuite menées séparément sur chaque jeu de données complété, puis leurs résultats combinés pour fournir un résultat global. Les différentes hypothèses faites sur l’origine des données manquantes (aléatoirement ou non) sont discutées dans cet article, et la mise en œuvre de l’imputation multiple est présentée dans une optique pragmatique, depuis la phase d’imputation jusqu’à l’obtention du résultat final. Une méthode moderne, appelée Multiple Imputation by Chained Equations (MICE), basée sur un algorithme Monte-Carlo Markov Chain, utilisable dans le cas des données manquantes aléatoirement (MA), est décrite. Un exemple d’application de cette méthode est détaillé dans le cas de l’analyse, via une régression logistique multiple, de la liaison entre une variable dichotomique et des covariables qualitatives. Pour deux d’entre elles, des données ont été rendues manquantes aléatoirement sans structure particulière. Résultats : En comparaison avec le jeu de données initial sans données manquantes, les résultats de la méthode MICE montrent une franche amélioration des performances dans l’estimation des coefficients de la régression par rapport à celles des résultats obtenus à partir de l’analyse des observations avec des données complètes. Conclusion : La méthode MICE ne fait pas d’hypothèse directe sur la distribution jointe des variables du jeu de données, ce qui offre un cadre d’utilisation souple. Cette procédure est aujourd’hui implémentée au sein de logiciels statistiques largement diffusés (Splus ou R, Stata) et présente l’avantage d’être utilisable pour l’imputation des valeurs manquantes de plusieurs variables sans structure particulière.
Mots-clés : Biais, Burkina Faso, Epidémiologie, Estimation, Grossesse, Méthode épidémiologique, Méthodologie, Modèle, Paludisme, Prophylaxie, Statistique
Mots-clés libres : MICE
Localisation : ORSRA : 11668, ORSRA

LA BASE DOCUMENTAIRE DE L'ORS AUVERGNE-RHÔNE-ALPES

L’imputation multiple des données manquantes aléatoirement : concepts généraux et présentation d’une méthode Monte-Carlo.

Les sites de l'ORS Auvergne-Rhône-Alpes

Nos sites partenaires