Published September 3, 2024
| Version v1
Conference paper
An EM Stopping Rule for Avoiding Degeneracy in Gaussian-based Clustering with Missing Data
Creators
Contributors
Others:
- MOdel for Data Analysis and Learning (MODAL) ; Laboratoire Paul Painlevé - UMR 8524 (LPP) ; Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Inria Lille - Nord Europe ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS) ; Université de Lille-Centre Hospitalier Régional Universitaire [CHU Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [CHU Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille)
- Laboratoire Paul Painlevé - UMR 8524 (LPP) ; Université de Lille-Centre National de la Recherche Scientifique (CNRS)
- Modèles et algorithmes pour l'intelligence artificielle (MAASAI) ; Inria Sophia Antipolis - Méditerranée (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Laboratoire Jean Alexandre Dieudonné (LJAD) ; Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS) ; Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S) ; Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S) ; Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Centre National de la Recherche Scientifique (CNRS)
- Laboratoire Jean Alexandre Dieudonné (LJAD) ; Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)
Description
Missing data frequency increases with the growing size of multivariate modern datasets. In Gaussian model-based clustering, the EM algorithm easily takes into account such data but the degeneracy problem is dramatically aggravated during the EM runs: parameter de- generacy is quite slow and also more frequent than with complete data. Consequently, parameter degenerated solutions may be confused with valuable parameter solutions and, in addition, computing time may be wasted through wrong runs. In this work, a simple and low informa- tional condition on the latent partition allows to propose a very simple partition-based stopping rule of EM which shows good behavior on nu- merical experiments.
Abstract
International audienceAdditional details
Identifiers
- URL
- https://inria.hal.science/hal-04867801
- URN
- urn:oai:HAL:hal-04867801v1
Origin repository
- Origin repository
- UNICA