Published April 15, 2018
| Version v1
Conference paper
Alpha-stable low-rank plus residual decomposition for speech enhancement
Contributors
Others:
- Laboratoire Traitement et Communication de l'Information (LTCI) ; Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)
- Signal, Statistique et Apprentissage (S2A) ; Laboratoire Traitement et Communication de l'Information (LTCI) ; Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)-Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)
- Faculty of Engineering and Natural Sciences (Sabanci University) ; Sabanci University [Istanbul]
- Scientific Data Management (ZENITH) ; Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM) ; Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Centre Inria d'Université Côte d'Azur (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
- ANR-15-CE38-0003,KAMoulox,Démixage en ligne de larges archives sonores(2015)
- ANR-16-CE23-0014,FBIMATRIX,Méthodes distribuées et parallèles de Monte-Carlo par chaînes de Markov pour l'Inférence Bayésienne de modèles à factorisation de tenseurs(2016)
Description
In this study, we propose a novel probabilistic model for separating clean speech signals from noisy mixtures by decomposing the mixture spectrograms into a structured speech part and a more flexible residual part. The main novelty in our model is that it uses a family of heavy-tailed distributions, so called the α-stable distributions, for modeling the residual signal. We develop an expectation-maximization algorithm for parameter estimation and a Monte Carlo scheme for posterior estimation of the clean speech. Our experiments show that the proposed method outperforms relevant factorization-based algorithms by a significant margin.
Abstract
International audienceAdditional details
Identifiers
- URL
- https://inria.hal.science/hal-01714909
- URN
- urn:oai:HAL:hal-01714909v1
Origin repository
- Origin repository
- UNICA