Published July 2, 2018
| Version v1
Conference paper
Multichannel Audio Modeling with Elliptically Stable Tensor Decomposition
Contributors
Others:
- Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH) ; Centre Inria de l'Université de Lorraine ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD) ; Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
- Scientific Data Management (ZENITH) ; Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM) ; Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Centre Inria d'Université Côte d'Azur (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
- Laboratoire Traitement et Communication de l'Information (LTCI) ; Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)
- Signal, Statistique et Apprentissage (S2A) ; Laboratoire Traitement et Communication de l'Information (LTCI) ; Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)-Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)
- Deville Y.
- Gannot S.
- Mason R.
- Plumbley M.
- Ward D.
- ANR-15-CE38-0003,KAMoulox,Démixage en ligne de larges archives sonores(2015)
- ANR-16-CE23-0014,FBIMATRIX,Méthodes distribuées et parallèles de Monte-Carlo par chaînes de Markov pour l'Inférence Bayésienne de modèles à factorisation de tenseurs(2016)
Description
This paper introduces a new method for multichannel speech enhancement based on a versatile modeling of the residual noise spec-trogram. Such a model has already been presented before in the single channel case where the noise component is assumed to follow an alpha-stable distribution for each time-frequency bin, whereas the speech spec-trogram, supposed to be more regular, is modeled as Gaussian. In this paper, we describe a multichannel extension of this model, as well as a Monte Carlo Expectation-Maximisation algorithm for parameter estimation. In particular, a multichannel extension of the Itakura-Saito nonnegative matrix factorization is exploited to estimate the spectral parameters for speech, and a Metropolis-Hastings algorithm is proposed to estimate the noise contribution. We evaluate the proposed method in a challenging multichannel denoising application and compare it to other state-of-the-art algorithms.
Abstract
International audienceAdditional details
Identifiers
- URL
- https://hal-lirmm.ccsd.cnrs.fr/lirmm-01766795
- URN
- urn:oai:HAL:lirmm-01766795v1
Origin repository
- Origin repository
- UNICA