Speech enhancement with variational autoencoders and alpha-stable distributions

Leglaive, Simon; Şimşekli, Umut; Liutkus, Antoine; Girin, Laurent; Horaud, Radu

Published May 12, 2019 | Version v1

Conference paper Metadata-only

Speech enhancement with variational autoencoders and alpha-stable distributions

Contributors

Others:

Interpretation and Modelling of Images and Videos (PERCEPTION) ; Centre Inria de l'Université Grenoble Alpes ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Laboratoire Jean Kuntzmann (LJK) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
Signal, Statistique et Apprentissage (S2A) ; Laboratoire Traitement et Communication de l'Information (LTCI) ; Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)-Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)
Département Images, Données, Signal (IDS) ; Télécom ParisTech
Scientific Data Management (ZENITH) ; Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM) ; Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Centre Inria d'Université Côte d'Azur (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
GIPSA - Cognitive Robotics, Interactive Systems, & Speech Processing (GIPSA-CRISSP) ; Département Parole et Cognition (GIPSA-DPC) ; Grenoble Images Parole Signal Automatique (GIPSA-lab) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Grenoble Images Parole Signal Automatique (GIPSA-lab) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
Chaire DSAIDISThis work is supported by the ERC Advanced Grant VHIA #34
ANR-15-CE38-0003,KAMoulox,Démixage en ligne de larges archives sonores(2015)
ANR-16-CE23-0014,FBIMATRIX,Méthodes distribuées et parallèles de Monte-Carlo par chaînes de Markov pour l'Inférence Bayésienne de modèles à factorisation de tenseurs(2016)
European Project: 340113,EC:FP7:ERC,ERC-2013-ADG,VHIA(2014)

his paper focuses on single-channel semi-supervised speech en-hancement. We learn a speaker-independent deep generative speechmodel using the framework of variational autoencoders. The noisemodel remains unsupervised because we do not assume prior knowl-edge of the noisy recording environment. In this context, our con-tribution is to propose a noise model based on alpha-stable distribu-tions, instead of the more conventional Gaussian non-negative ma-trix factorization approach found in previous studies. We develop aMonte Carlo expectation-maximization algorithm for estimating themodel parameters at test time. Experimental results show the supe-riority of the proposed approach both in terms of perceptual qualityand intelligibility of the enhanced speech signal.

Abstract

International audience

Additional details

URL: https://inria.hal.science/hal-02005106
URN: urn:oai:HAL:hal-02005106v1

Origin repository: UNICA

	All versions	This version
Views	4	4
Downloads	0	0
Data volume	0 Bytes	0 Bytes

Speech enhancement with variational autoencoders and alpha-stable distributions

Creators

Contributors

Others:

Description

Abstract

Additional details

Identifiers

Origin repository