Published May 12, 2019
| Version v1
Conference paper
Speech enhancement with variational autoencoders and alpha-stable distributions
Contributors
Others:
- Interpretation and Modelling of Images and Videos (PERCEPTION) ; Centre Inria de l'Université Grenoble Alpes ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Laboratoire Jean Kuntzmann (LJK) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
- Signal, Statistique et Apprentissage (S2A) ; Laboratoire Traitement et Communication de l'Information (LTCI) ; Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)-Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)
- Département Images, Données, Signal (IDS) ; Télécom ParisTech
- Scientific Data Management (ZENITH) ; Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM) ; Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Centre Inria d'Université Côte d'Azur (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
- GIPSA - Cognitive Robotics, Interactive Systems, & Speech Processing (GIPSA-CRISSP) ; Département Parole et Cognition (GIPSA-DPC) ; Grenoble Images Parole Signal Automatique (GIPSA-lab) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Grenoble Images Parole Signal Automatique (GIPSA-lab) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
- Chaire DSAIDISThis work is supported by the ERC Advanced Grant VHIA #34
- ANR-15-CE38-0003,KAMoulox,Démixage en ligne de larges archives sonores(2015)
- ANR-16-CE23-0014,FBIMATRIX,Méthodes distribuées et parallèles de Monte-Carlo par chaînes de Markov pour l'Inférence Bayésienne de modèles à factorisation de tenseurs(2016)
- European Project: 340113,EC:FP7:ERC,ERC-2013-ADG,VHIA(2014)
Description
his paper focuses on single-channel semi-supervised speech en-hancement. We learn a speaker-independent deep generative speechmodel using the framework of variational autoencoders. The noisemodel remains unsupervised because we do not assume prior knowl-edge of the noisy recording environment. In this context, our con-tribution is to propose a noise model based on alpha-stable distribu-tions, instead of the more conventional Gaussian non-negative ma-trix factorization approach found in previous studies. We develop aMonte Carlo expectation-maximization algorithm for estimating themodel parameters at test time. Experimental results show the supe-riority of the proposed approach both in terms of perceptual qualityand intelligibility of the enhanced speech signal.
Abstract
International audienceAdditional details
Identifiers
- URL
- https://inria.hal.science/hal-02005106
- URN
- urn:oai:HAL:hal-02005106v1
Origin repository
- Origin repository
- UNICA