Published July 18, 2021
| Version v1
Conference paper
Relative Positional Encoding for Transformers with Linear Complexity
Contributors
Others:
- Scientific Data Management (ZENITH) ; Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM) ; Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Centre Inria d'Université Côte d'Azur (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
- Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)
- Département Images, Données, Signal (IDS) ; Télécom ParisTech
- Signal, Statistique et Apprentissage (S2A) ; Laboratoire Traitement et Communication de l'Information (LTCI) ; Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)-Institut Mines-Télécom [Paris] (IMT)-Télécom Paris ; Institut Mines-Télécom [Paris] (IMT)-Institut Polytechnique de Paris (IP Paris)-Institut Polytechnique de Paris (IP Paris)
- Research Center for Information Technology Innovation [Taipei] (CITI)
- National Taiwan University [Taiwan] (NTU)
- Taiwan AI Labs [Taipei] (AILabs.tw)
- Département d'informatique - ENS-PSL (DI-ENS) ; École normale supérieure - Paris (ENS-PSL) ; Université Paris Sciences et Lettres (PSL)-Université Paris Sciences et Lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)
- Statistical Machine Learning and Parsimony (SIERRA) ; Département d'informatique - ENS-PSL (DI-ENS) ; École normale supérieure - Paris (ENS-PSL) ; Université Paris Sciences et Lettres (PSL)-Université Paris Sciences et Lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL) ; Université Paris Sciences et Lettres (PSL)-Université Paris Sciences et Lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS)-Centre Inria de Paris ; Institut National de Recherche en Informatique et en Automatique (Inria)
- ANR-19-P3IA-0001,PRAIRIE,PaRis Artificial Intelligence Research InstitutE(2019)
- European Project: MIP-Frontiers
Description
Recent advances in Transformer models allow for unprecedented sequence lengths, due to linear space and time complexity. In the meantime, relative positional encoding (RPE) was proposed as beneficial for classical Transformers and consists in exploiting lags instead of absolute positions for inference. Still, RPE is not available for the recent linear-variants of the Transformer, because it requires the explicit computation of the attention matrix, which is precisely what is avoided by such methods. In this paper, we bridge this gap and present Stochastic Positional Encoding as a way to generate PE that can be used as a replacement to the classical additive (sinusoidal) PE and provably behaves like RPE. The main theoretical contribution is to make a connection between positional encoding and cross-covariance structures of correlated Gaussian processes. We illustrate the performance of our approach on the Long-Range Arena benchmark and on music generation.
Abstract
International audienceAdditional details
Identifiers
- URL
- https://telecom-paris.hal.science/hal-03256451
- URN
- urn:oai:HAL:hal-03256451v1
Origin repository
- Origin repository
- UNICA